一句话流程
这个 YouTube Short 的制作流程是:
OmniVoice 克隆我的声音 → ChatGPT Image 2 生成画面 → LTX 2.3 做 audio to video 和 lipsync → CapCut 完成后期。
我不会把它当成“按一个按钮生成影片”。比较准确的说法是:我把 AI 当成一个小型制作团队,每个工具只负责自己最擅长的环节。
先决定短视频的核心感觉
在打开工具之前,我会先想清楚这支 Short 要给观众什么感觉。
短视频时间很短,所以我不会一开始就追求复杂故事。我的重点通常是三个问题:
- 这支视频第一秒要让人看到什么?
- 声音听起来要像我本人在说话,还是更像旁白?
- 画面应该真实、戏剧化,还是偏 AI 风格?
这一步很重要,因为后面的工具都会受这个判断影响。声音、图片、嘴型同步和剪辑节奏,如果方向不同,最后就会变成一支看起来很厉害但没有统一感的视频。
第一步:用 OmniVoice 克隆我的声音
我先用 OmniVoice 处理声音。
对我来说,声音是短视频的情绪基础。画面可以很炫,但如果声音不像自己,或者语气不自然,观众很快就会感觉不对。
OmniVoice 在这个流程里的任务很清楚:克隆我的声音,让旁白更接近我自己的表达方式。
我会特别注意几件事:
- 句子不要太长,否则后面做嘴型同步会比较难。
- 语气要像正常说话,不要太像广告旁白。
- 每一段音频最好有清楚的停顿,方便后期剪辑。
这里不是只追求“像不像”。更重要的是,这个声音能不能支撑短视频的节奏。
第二步:用 ChatGPT Image 2 生成画面
声音确定之后,我会用 ChatGPT Image 2 生成主要画面。
这一步的目标不是随便做一张漂亮图片,而是做一张可以被 LTX 2.3 转成视频的起点图。换句话说,图片要有足够清楚的人物、构图和视觉方向。
我通常会在提示词里说明:
- 人物的表情和姿势
- 场景的气氛
- 镜头距离,例如近景、中景或半身
- 光线和风格
- 画面不要放太多复杂元素
如果画面太复杂,后面视频生成时更容易出现不稳定的问题。对 AI 短视频来说,一张“干净、明确、可动起来”的图片,往往比一张细节爆炸的图片更实用。
第三步:用 LTX 2.3 做 audio to video 和 lipsync
接下来进入核心的视频生成阶段:LTX 2.3。
我把前面准备好的声音和图片带进 LTX 2.3,让它根据音频生成视频,并处理嘴型同步。
这一环节我最关心三件事:
- 嘴型有没有跟声音对上。
- 人物表情有没有自然变化。
- 画面运动有没有破坏原本的人物和构图。
Audio to video 很容易让人兴奋,因为它让一张图片突然“活起来”。但我会反复检查嘴巴、牙齿、眼神和脸部边缘。只要这些地方出现明显问题,观众就会立刻出戏。
所以我通常不会只生成一次就结束。我会测试几版,选一版嘴型、表情和稳定性最平衡的结果。
第四步:用 CapCut 做后期
最后我会把 LTX 2.3 输出的视频放进 CapCut。
CapCut 在这个流程里不是可有可无的装饰,而是把 AI 生成结果变成短视频作品的地方。
我会在 CapCut 里处理:
- 剪掉多余停顿
- 调整开头节奏
- 加字幕
- 检查音量和背景声
- 调整画面裁切,让它适合 Shorts 的竖屏观看
- 做发布前的最后预览
很多 AI 视频看起来“差一点”,问题不一定出在生成模型,而是缺少最后的剪辑判断。短视频尤其如此。观众不是在看技术演示,他们是在刷内容。节奏慢半秒,字幕太乱,音量不舒服,都会影响观看体验。
为什么我喜欢这个四段式工作流
这个流程的好处是,每一步都可以独立修改。
如果声音不自然,我回到 OmniVoice。
如果画面不够好,我回到 ChatGPT Image 2。
如果嘴型不稳定,我重新测试 LTX 2.3。
如果整体节奏不够顺,我在 CapCut 里重新剪。
这种拆开的方式,比把所有希望压在一个工具上更稳定。它也让我更像是在导演一个 AI 制作流程,而不是被工具随机带着走。
我的实际心得
做完这次测试后,我最大的感受是:AI Shorts 的关键不只是“能不能生成视频”,而是每个环节有没有清楚分工。
OmniVoice 让我保留自己的声音。
ChatGPT Image 2 给我可控的视觉起点。
LTX 2.3 把声音和画面连接成会说话的视频。
CapCut 则负责让作品真的适合发布。
如果你也想做类似的 AI 短视频,我建议不要一开始就追求复杂剧情。先做一个短、清楚、可控的版本,把声音、画面、嘴型和剪辑跑通。流程稳定之后,再慢慢增加创意复杂度。
FAQ
为什么不直接用一个 AI 视频工具完成全部流程?
因为每个环节的要求不同。声音、图片、嘴型同步和后期剪辑各自有不同的判断标准。把工具拆开使用,可以让我更容易控制质量,也更容易在某一个环节重做。
CapCut 在这个流程里还重要吗?
重要。AI 可以生成素材,但短视频最后好不好看,往往取决于节奏、字幕、剪点、音量、封面感和发布前检查。CapCut 是我把 AI 素材整理成可发布作品的最后一步。




