这是一个非常及时的问题,2025年5月),AI短剧的制作方式已经相当成熟,文生视频”通常不直接产出完整的20分钟短剧,而是产出一段段分镜或场景,再通过剪辑软件拼成短剧。
下面是一份实操教程,我会分为四个主流路径,涵盖从纯AI生成到实拍+AI辅助的完整流程。
核心认知:纯AI生视频的局限性
- 痛点:直接输入“霸道总裁追妻”生成5分钟视频,AI会“精神分裂”(人物长相、服装、场景前后不连贯)。
- 解法:按分镜生产,你需要把剧本拆成几十个“镜头”,每个镜头AI单独生成,最后用剪辑软件拼接。
纯AI生成(适合低成本的奇幻、古风、科幻短剧)
这是目前讨论最多的方式。
准备“文生视频”的素材:剧本与分镜表
- 写一个强冲突、高反转的短剧剧本(1-3分钟一集)。
- 将剧本拆解成分镜头脚本。
- 镜1:中景,女主在豪华别墅客厅摔倒,杯具破碎。
- 镜2:近景,男主(霸总)从楼梯上冷漠走过,眼神轻蔑。
- 镜3:特写,女主含泪抬头。
选择工具(2025年主流)
- Runway Gen-3 / Gen-4:画质最稳定,动作流畅,可控性强,适合生成写实、影视级效果。
- Luma Dream Machine:物理效果(摔杯子、水花)很好,适合动作镜头。
- 可灵(Kling) / 即梦:国内产品,中文理解最好,古风、仙侠效果极佳,成本较低。
- Sora:如果可用,目前逻辑理解最强,适合长镜头。
关键技巧:提示词怎么写(公式)
[镜头类型] + [主体描述] + [动作] + [环境] + [光线/氛围] + [艺术风格]
失败案例:
“一个男人在打女人” -> 太模糊,生成的画面不可控。
成功案例:
“中景镜头,一位穿着黑色西装、面容冷峻的年轻霸道总裁,缓慢走过金色旋转楼梯,蔑视地扫视一眼跪在地上的女主,昏暗的暖色灯光照在他的侧脸,电影感胶片风格,高清晰度,8K。”
“文生视频”实操步骤(以可灵为例)
- 口型同步:大部分AI视频无声,你可以用 HeyGen 或 D-ID,上传生成的人物图片,粘贴台词,让AI说话对口型,但注意:人物长相会变。
- 角色一致性解法:用 Midjourney 生成一张关键角色图 -> 导入可灵/Runway的 “图生视频” 模式 -> 输入动作提示词。图生视频比文生视频更能保证颜值稳定。
AI辅助真人实拍(目前最成熟的“AI短剧”方案)
大部分爆火的AI短剧(如《山海奇镜》《三星堆》)用的是这个方案。
核心流程
- 真人拍摄:演员穿着普通衣服,用手机或相机拍完所有肢体动作。
- AI换脸 + 换装:用 EasyPhoto 或 ReActor 插件,将演员的脸替换成AI生成的完美脸型;用 SD(Stable Diffusion)+ ControlNet 将衣服、背景全换成AI生成的古装或科幻场景。
实操工具
- 抠图: Remove.bg 或 ClipDrop。
- AI背景生成: 用 Adobe Firefly 或 Midjourney 先生成场景图。
- 合成: 进入 ComfyUI 工作流(节点式操作),连接“原视频 -> 姿态检测(OpenPose) -> 背景替换 -> 换脸”节点。
优点
- 动作流畅:真人表演,AI只负责“换皮”。
- 表情自然:AI眼神、微表情问题被规避了。
AI生成关键帧 + 补帧(风格化最强)
如果你想做2D动漫风格或水墨风格短剧。
做法
- 用 Midjourney 生成每一帧的关键画面(手绘草图)。
- 使用 Pika Labs 或 EbSynth(AI补帧工具):将关键帧导入,EbSynth会根据你画的几张图,把一段普通视频(比如你对着摄像头随便动)自动转绘成那个画风的连续动画。
场景示例
- 你拍一段自己转头、微笑的视频。
- 你用Midjourney画了2张该角色的手绘稿(正面、侧面)。
- EbSynth自动把你的真人视频变成高质量的动漫短片。
完整实操流程(路径一,最省时间版)
假设你要制作 《重生之我在AI世界当太后》 第一集(30秒)。
- 文案/台词生成:打开 ChatGPT / Claude。
- 提示词:写一个30秒的宫斗短剧剧本,主角是重生归来的皇后,开场是她在冷宫醒来,眼神从迷茫到凌厉。
- 分镜生成:人工拆解为3个镜头。
- 镜1:冷宫破败床榻,睁眼(特写)。
- 镜2:坐起身,扫视环境(中景)。
- 镜3:眼神变化,攥紧拳头(特写)。
- 图片生成角色:用 Midjourney / 即梦 生成“重生皇后”的定妆照。记住这个角色的Seed号。
- 视频生成:
- 进入 可灵。
- 上传定妆照 -> 图生视频。
- 输入动作词:“一名身穿华丽古装的皇后,从破旧的稻草床上缓缓坐起,眼神由迷茫变得冰冷,电影光效。”
- 配音:
- 打开 剪映。
- 用“文本朗读” -> 选一个“霸道女声”AI配音。
- 后期:
- 将生成的3段视频拖入剪映,去掉多余的头尾。
- 加背景音乐、音效(AI生成:比如Suno AI生成古风BGM)。
- 加滤镜,调色。
- 导出:完成!
总结建议
- 新手入门:“可灵 图生视频 + 剪映” 是最低门槛的组合,先保证画面稳定,不要追求长镜头。
- 进阶玩家:学习 ComfyUI + Runway + Topaz Video AI(把低清变高清,帧率变流畅)。
- 商业级:真人拍摄 + AI换脸换装 是当前最好的路径。
开始做一个1分钟的实验短剧吧,AI工具现在每天都在迭代,动手就是最好的学习。

