制作AI短剧的“图生视频”是目前非常高效的方式,尤其适合没有演员、没有拍摄设备、但有剧本和画面想象力的创作者。
核心逻辑很简单:先用AI生成分镜图(关键帧),再让AI把图“动”起来。
下面是一份详细的实操教程,分为 3个阶段:前期准备→ 生图 → 图转动效。
第一阶段:前期准备(决定成败)
不要直接让AI随便生成一张图,短剧需要连续性。
- 剧本拆解(分镜)
- 写一段短小的剧本。”主角小美在雨夜敲门,屋内有人犹豫,小美表情从焦急变为失望。“
- 拆解为 3-5 个关键分镜(1.小美全身在门外淋雨 2.门内影子犹豫 3.小美脸部特写失望)。
- 确定视觉风格(LoRA/模型)
- 如果是古风短剧,模型用 国风3D 或 写实古风。
- 如果是都市情感,模型用 写实人像 或 黏土风格(最近很火)。
- 关键点: 必须用 同一个底模 和 同一个固定角色LoRA,否则角色的脸会像“换人”一样变来变去。
第二阶段:生成高质量关键帧(图)
这里的核心任务是生成一张“能动的图”,你不需要生成复杂的背景,但要生成一个姿势明确、表情清晰的角色。
工具推荐:
- 新手/高质: Midjourney(描述精准,审美最好)+ 垫图固定角色。
- 免费/本地: Stable Diffusion + ControlNet(控制姿势)。
- 快速出图: 字节系工具(即梦/可灵等),内置角色参考功能。
具体操作(以MJ为例):
- 固定角色(最重要一步): 用早期生成的“大头照”作为 垫图(Image Gen),输入咒语,让AI生成不同姿势但同一张脸。
- 写Prompt咒语技巧(为了后面能动):
- 不要写”风景大片“,要写 ”人物+动作+状态”。
- 示例:
- (角色A),悲伤表情,雨水顺着头发流下,灰色卫衣,湿透,看向镜头,电影光影,景深。
- (角色B),逆光,门内剪影,手放在门把手上,犹豫,低对比度。
- 分辨率: 建议生成 竖屏 9:16(1080x1920),这是短剧的标准尺寸。
第三阶段:图转动态视频(核心实操)
把上面生成好的图,喂给AI让它动起来,这里有三种不同效果,对应不同的短剧需求:
微动效(最常用,效果最稳)
- 目的: 让画面有呼吸感、发丝飘扬、眼睛眨眼、烛光摇曳。
- 工具: Runway Gen-2 或 可灵 Kling(国内首选)
- 操作:
- 导入图片。
- 输入关键提示词:”微风,头发微动,悲伤眼神特写,镜头极慢推近。“
- 参数: 运动长度设为3-5秒,运动幅度设低(20-30%)。
- 结果: 你会得到一段角色有表情变化、背景有动态的视频,非常适合对话镜头。
大幅度动作(适合打斗、奔跑、转身)
- 目的: 角色从A点移动到B点。
- 工具: Runway Gen-2 或 Pika(需开启Motion Brush)
- 操作:
- 导入图片。
- 使用 Motion Brush(运动笔刷):手动涂抹角色的手臂或腿部。
- 提示词:”角色在雨夜奔跑,从右向左移动。“
- 风险: 容易崩脸或穿模,建议生成短片段(3秒),用于快节奏剪辑。
镜头运动(配合情绪)
- 目的: 模拟摄影机的推拉摇移。
- 工具: 可灵 Kling 或 即梦 Dreamina
- 操作:
- 只需要输入图片。
- 不需要提示具体动作,而是提示镜头语言:
- “镜头从角色特写缓慢拉远,露出身后倾盆大雨的城市。”
- “手持镜头抖动,模拟第一视角敲门。”
- 关键: 这类工具对镜头运动的理解最好,适合转场。
第四阶段:组装与剪辑(短剧感)
graph LR
A[图生视频片段1] --> C[剪映/PR]
B[图生视频片段2] --> C
C -- 添加音效/背景音乐 --> D[调色/加字幕]
D -- 统一滤镜 --> E[成品短视频]
- 去重处理: AI视频容易有涂抹感,在剪映里加 “特效” -> “基础” -> “画质修补” 或微弱的 “胶片颗粒”。
- 配音: 使用 ElevenLabs 或 剪映的AI配音,选择“悲伤女声”或“深沉男声”。
- 踩点: 让AI说话的口型对上画面,如果口型没对上,就不要用特写,插空景或背影,只用来烘托情绪。
- 音效: 脚步声、雨声、门缝摩擦声,这是区分业余和专业的关键,音效能让静态的视频“活”起来。
避坑指南(常见的失败点)
- 为什么脸一直变? → 没有固定的角色参考图,需提前用Midjourney或SD生成一张“参考图(Ref Image)”,并在后续所有生图和生视频中强制引用。
- 为什么动画像果冻? → 运动幅度拉太高,建议单段视频不超过4秒,运动幅度调低(20-40%),太长的片段AI会脑子不够用,产生扭曲。
- 为什么背景乱动? → 提示词里没加“静态背景”,加
--no moving background, static。 - 为什么没有短剧感? → 镜头太平,需要混合“近景-中景特写-远景”三种景别,全是大白腿全景,观众会失去焦点。
推荐0成本启动组合:
- 生图: 即梦/可灵(国内,送体验积分,有参考图功能)
- 图生视频: 可灵(1.6版本的运动幅度和一致性最好)
- 剪辑配音: 剪映(自带AI配音和校色)
一句话总结: 先用文生图生成表情一致、姿势清晰的图,再用图生视频工具给图片加上微弱的呼吸感或眼神动作,最后用剪辑软件加音效和字幕。

