制作短剧双语字幕通常涉及听写/翻译、时间轴制作和压制三个核心步骤,以下是针对不同水平(新手到专业)的完整流程指南:
第一步:准备原始素材
- 获取音频/视频:确保视频文件清晰,音频无过多杂音。
- 决定语言对:中文→英文,或 英文→中文。
第二步:听写与翻译
你不需要直接写代码,但需要处理文本。
-
手动听写
- 使用文本编辑器或专业的字幕软件(见第四步)。
- 听一句,暂停,输入原文,再输入译文。
- 技巧:使用播放器的慢放功能(0.5x或0.75x)处理口齿不清或语速快的部分。
-
AI辅助听写(推荐)
- 语音转文字工具:使用剪映(必剪)、讯飞听见、网易见外等。
- 步骤:
- 上传音频/视频到工具。
- 自动生成原文时间轴(SRT格式)。
- 校对:AI识别准确率通常在90-95%,需要人工修正专有名词、连读、标点。
-
翻译环节:
- 如果你精通双语:直接在下文第三、四步中输入。
- 如果你需要辅助:使用DeepL、Google翻译,或AI工具(如ChatGPT)。千万不要直接使用机翻结果,必须人工润色调整语序、文化梗(我服了”译为“I give up”而非“I admire”)。
第三步:选择字幕制作工具
| 工具 | 适合人群 | 优点 | 缺点 |
|---|---|---|---|
| 剪映专业版 | 新手、短视频创作者 | 免费,内置语音识别、翻译、字幕段落对齐 | 无法直接导出ASS格式(特效字幕),字幕风格较模板化 |
| Arctime | 进阶爱好者 | 自动打轴(需人工校准),可编辑样式,支持SRT/ASS | 翻译功能弱(需外部导入),界面略旧 |
| Aegisub | 专业字幕组 | 精确控制时间轴,支持高级特效(卡拉OK、字体特效) | 学习曲线陡峭,无AI翻译,纯手动 |
| Subtitle Edit | 效率党 | 免费开源,多种听写引擎(Whisper)集成,支持波形修改时间轴 | 界面功能复杂,翻译需插件或手动输入 |
| 在线工具(如快乐字幕君、SubtitleNEXT) | 偶尔使用 | 免安装,可拖动时间轴,支持在线翻译 | 有文件大小限制,会员制,隐私风险 |
第四步:制作时间轴与对齐
确保字幕出现在正确的时间点,这是区分“合格”与“粗糙”的关键。
- 硬打轴(新手推荐):使用剪映等工具,先听写,再调整字幕块长度,原则:字幕在说话前0.1秒出现,在说话结束后0.2-0.5秒消失,长字幕需拆分(每行不超过20-30个字符)。
- 波形/频谱打轴(手动专业):使用Aegisub或Subtitle Edit,观察音频波形,说话时波峰明显,在波形上框选时间范围,输入原文和译文。
- 机器打轴+精调:Arctime可以按“说话停顿”自动断句,但需手动微调错位。
第五步:格式化双语布局
经典布局策略:
- 上1下2或上2下1(常见):
- 原文在上(例如中文),译文在下(例如英文)。
- 或者原文在左,译文在右(适合竖屏短剧?容易导致文字重叠,不推荐)。
- 左1右2(横屏视频):使用Aegisub将两条字幕分别放在左右两侧,或使用ASS脚本对齐。
- 单行混合:
-你好 -Hello(只适合短句,长句阅读吃力)。
具体在工具中设置:
- 剪映:将原文和译文分别放在不同的字幕行,选中字幕,在“样式”中调整位置(Y轴坐标):第一行 -50,第二行 -20。
- Aegisub:创建两个样式(Style),一个命名为
ZH(原文),位置Align 2(底部居中);另一个命名为EN(译文),位置Align 8(顶部居中)或其他偏移位置。
第六步:检查与导出
- 时间轴一致性检查:从头到尾播放,确认每句字幕在语音持续期间完整显示。
- 翻译准确性:检查专有名词(人名、地名)、俚语、语气词(“嗯”、“啊”最好省略,或用英文对应语气词如"Oh", "Yeah")。
- 字符限制:
- 中文每行不超过18-20字。
- 英文每行不超过40-50个字符(含空格)。
- 每行停留时间不要少于1秒,以免阅读困难。
- 导出格式:
- 硬字幕(嵌入视频):在工具中直接导出视频(推荐短剧平台)。
- 软字幕(独立文件):导出SRT(兼容性最好)或 ASS(保留样式特效)。
推荐工作流(适合新手):剪映快速流
- 导入视频 > 文本 > 智能字幕(或:识别歌词)> 自动生成中文/英文时间轴。
- 进入文本编辑模式,为每个字幕段手动输入另一语言(或使用剪映的“翻译”功能获取草稿后手动修正)。
- 将原文和译文分别放置在上下行,调整字号、字体(原文一般用无衬线字体如黑体、Arial,译文用Times New Roman或Roboto)。
- 预览检查 > 导出视频(带字幕)或导出SRT文件。
进阶:批量处理(字幕组效率流)
- 使用Spleeter(音源分离):处理多人对话噪音。
- Whisper(语音转文字):本地运行,高精度多语言识别,输出带时间轴的JSON/SRT。
- 对齐工具:Subtitle Edit的“对齐波形”功能自动调整时间轴。
- 翻译记忆库:使用Okapi或OmegaT统一翻译风格(如统一角色名)。
总结核心要点
- 原文要准,译文要读得通(不要逐字死译,要符合目标语言口语习惯)。
- 时间轴是灵魂:宁可提前0.1秒出现,不要晚0.5秒消失。
- 美观阅读:字符限制 + 清晰字体 + 适当阴影(或描边)+ 不遮挡画面重要元素(如人脸、字幕条)。
- 效率为王:新手先用剪映 + AI听写,熟练后再学习Aegisub的专业控制。
如果你能提供:原始语言、目标语言、以及是否已有时间轴(或只有视频),我可以给出更精确的适配方案。

