制作AI短剧的配音,目前主流的做法是结合AI语音合成和人工后期处理,不需要专业的录音棚,也不需要昂贵的声卡,普通人用一台电脑或手机就能完成。
以下是一套从零开始的实操教程,分为四个核心步骤:
第一步:文本处理与角色分配(基础)
这是最容易被忽略但最重要的一步,AI虽然能说话,但听不懂“语气”。
-
撰写/整理剧本: 将剧本中的台词和旁白/动作描述分开。
-
角色标注: 为每一句台词标注好角色名。
[男主:年轻,阳光] “嘿,早上好!今天天气真不错。”
[反派:阴冷,低沉] “呵呵,恐怕你没机会看到明天的太阳了。”
-
添加语气提示词: 在台词后面加括号,告诉AI你需要什么情绪。
[颤抖地]、[愤怒地]、[轻声细语],很多AI合成工具支持SSML,但最简单的就是加括号描述。
第二步:选择AI配音工具(核心)
目前市面上常用的配音工具有以下几类,根据你的预算和精度选择:
新手首选 & 免费版
- 剪映(电脑版/手机版): 适合95%的普通人。
- 优点: 免费、音色多(有“解说男声”、“萌趣女娃”等且效果不错)、操作简单。
- 操作: 导入视频 -> 点击“文本” -> 输入台词 -> 点击“朗读” -> 选择音色 -> 调整语速(建议微调慢一点,更自然)。
- 魔音工坊(Moyin): 国内AI配音头部产品。
- 优点: 情绪控制极佳(有“高兴”、“悲伤”、“耳语”等调节滑块),适合做精品短剧。
- 缺点: 需付费(但首充不贵)。
进阶 & 商业化选择
- ElevenLabs(英文/多语言): 目前全球效果最好的AI配音,声音极其逼真,情感丰富,适合想做国际市场的短剧,有免费额度。
- Microsoft Azure TTS / 阿里云TTS: 效果很稳,能用API对接,适合批量生产,但直接使用门槛稍高。
语音克隆(让角色声音一致)
- RVC(Retrieval-based Voice Conversion): 开源免费,效果顶级,可以自己训练角色的声音模型,需要较强的电脑配置(NVIDIA显卡)。
- 剪映的“声音克隆”: 在剪映专业版里,朗读功能下可以“克隆自己或他人的声音”,只需录制10秒左右。非常方便,强烈推荐给需要固定角色声音的创作者。
第三步:AI配音实操流程(以剪映为例)
- 导入视频: 把制作好的AI短剧画面(无论是AI生成的动画还是实拍)导入剪映。
- 输入台词文本: 在时间轴上,根据画面出现的时间点,新建文本图层,输入该角色的台词。
- 生成配音:
- 选中文本图层 -> 点击菜单栏的“朗读” -> 选择你为这个角色分配的音色(如“男主-阳光大男孩”)。
- 关键技巧: 点击“朗读”旁边的小齿轮(自定义参数),将语速调慢至 95%~98%,音调根据角色微调,这能让AI说话更像真人,而不是快进。
- 调整节奏: 生成后,在时间轴上拖动音频块,对齐口型(如果是动画角色,口型不对问题不大),对于停顿,可以手动在文本中加入逗号或句号,或者将一句话拆成两段。
- 多角色接力: 重复上述步骤,为反派、配角分别生成配音,一个画面里如果有两个角色对话,就分开建两个文本块。
第四步:后期处理(让配音“活起来”)
AI配音最大的问题是“平”,没有起伏,后期处理能解决这个问题:
- 添加混响: 在剪映里选中音频,点击“音频 -> 音效 -> 混响”,室内的对话选“小房间”,空洞的氛围选“山谷”。
- 调整音量包络线: 这是最关键的一步。
- 点击AI音频轨道,按
Ctrl + 点击添加关键帧。 - 在情绪激动的句子开头,把音量拉高;在伤感的句尾,把音量拉低,模拟真人说话的抑扬顿挫。
- 点击AI音频轨道,按
- 添加环境音: 不要只留AI语音,那样很假,在配乐轨道下方加一层环境音(如:雨声、街道人流声、办公室空调声),在剪映“素材库”里搜索即可,环境音音量要调小,约10%~15%。
- 背景音乐(BGM): 选择符合剧情的音乐,注意:BGM不要在有人说话时太大声,否则会盖过人声,可以听过“自动闪避”功能(在剪映音频设置里),或者手动在说话处给BGM轨道加关键帧降低音量。
一个完整的小贴士
- 避免错误: 不要试图让AI读一整段长独白,它会变成“AI念经”。把长句子拆成短句(每句不超过15个字),效果会好很多。
- 高端技巧: 如果你追求极致效果,可以先用TTS生成多条不同情绪的干音(比如同一句话生成“惊讶版”和“平静版”),然后在剪辑软件里像拼积木一样,把每个词的情绪拼接到最佳状态。
简单一句话版本: 写剧本 -> 用剪映输入文本 -> 选音色朗读 -> 调整语速微慢 -> 加环境音和BGM -> 导出即可。

