我实验的开源 AI 音乐视频制作流程：ChatGPT、Ace-Step 1.5、ChatGPT Image 2 和 Remotion

一句话流程

这次我实验的 AI 制作流程是：

ChatGPT 做歌词 → Ace-Step 1.5 做音乐 → ChatGPT Image 2 做画面 → Remotion 做视频。

我想测试的不是“AI 能不能一次生成完整 MV”，而是另一件更实用的事：如果把音乐视频拆成几个独立环节，每个环节都用适合的 AI 工具处理，最后能不能形成一个更稳定、可修改、可重复的工作流。

为什么我想拆开制作

很多 AI 创作工具都喜欢把自己包装成“一句话生成完整作品”。这个方向很吸引人，但在真实制作里，我更在意可控性。

一支音乐视频至少包含四层东西：

歌词的主题和情绪
音乐的旋律、速度和风格
画面的角色、场景和氛围
视频的节奏、转场和最终输出

如果全部交给一个工具，第一次结果可能会惊艳，但修改时就会很麻烦。歌词想改一句，音乐可能要重来；画面想换风格，节奏可能也会被影响。

所以这次我选择拆开来做。每个工具负责一个明确任务，出问题时也知道该回到哪一步。

第一步：用 ChatGPT 做歌词

我先用 ChatGPT 处理歌词。

歌词不是单纯把句子写得漂亮。对 AI 音乐来说，歌词还要有结构。它需要适合被唱出来，也需要给后面的音乐模型足够清楚的情绪方向。

我会先让 ChatGPT 帮我整理：

主题
语气
主歌和副歌结构
关键画面感
哪些句子适合重复

这里我不会追求一次写到完美。我更喜欢先生成一个可用版本，再从中挑出有感觉的句子，慢慢修成更像自己的表达。

第二步：用 Ace-Step 1.5 做音乐

歌词有了之后，我把重点转到 Ace-Step 1.5。

Ace-Step 1.5 在这个流程里的角色是音乐生成。它把歌词和风格方向转成可以听的歌曲。

我会关注几件事：

旋律能不能记住
节奏适不适合短视频
人声和伴奏有没有打架
副歌有没有足够清楚的情绪高点

AI 音乐最容易出现的问题，是听起来完整，但没有记忆点。所以我不会只听它“有没有生成成功”。我会特别检查副歌、开头几秒和整体能量，因为这些地方决定观众会不会继续听下去。

第三步：用 ChatGPT Image 2 做画面

音乐确定后，我再用 ChatGPT Image 2 生成画面。

这一步不是为了一张单独好看的图，而是为整支视频建立视觉世界。音乐已经给了情绪，图片要把这种情绪变成可见的场景。

我通常会把歌词和音乐感觉转成视觉提示，例如：

主角是谁
场景是什么
色彩应该温暖、冷静，还是更梦幻
画面是写实、电影感，还是偏插画
每一段音乐适合什么视觉变化

这里的关键是统一感。就算每张图都很漂亮，如果它们像来自不同作品，放进视频里也会显得散。

第四步：用 Remotion 做视频

最后我用 Remotion 把所有素材变成视频。

Remotion 对我来说很有意思，因为它把视频制作变成一个代码化的时间轴。与其在传统剪辑软件里手动拖来拖去，我可以用组件、时间、参数和音频节奏来组织画面。

在这个步骤里，我会处理：

图片出现的时间点
镜头移动和缩放
歌词或字幕的节奏
画面和音乐段落的匹配
最终视频比例和导出

Remotion 很适合这种实验，因为它让流程更可重复。如果我之后想换一首歌、换一批图，或者调整某个段落的节奏，不需要从零开始重新剪。

这个流程的好处

这套流程最吸引我的地方，是它很模块化。

歌词不满意，回到 ChatGPT。
音乐不满意，回到 Ace-Step 1.5。
画面不满意，回到 ChatGPT Image 2。
视频节奏不满意，回到 Remotion。

每一步都有清楚边界，修改成本比较低。这对一个人做内容非常重要，因为我们没有大型团队，也不可能每次实验都花很长时间重做全部东西。

我的实验心得

这次实验让我更确定一件事：AI 创作的重点不只是生成能力，而是工作流设计。

ChatGPT 帮我把想法变成歌词结构。
Ace-Step 1.5 把歌词变成音乐。
ChatGPT Image 2 把音乐情绪变成画面。
Remotion 把所有素材组织成视频。

当这些环节串起来，AI 就不只是一个工具，而是一条小型制作线。它还不完美，但已经足够让我用更低成本测试想法、做内容原型，并把作品推进到可以发布的状态。

FAQ

这个流程为什么强调开源和可控？

因为音乐视频不是只生成一次素材就结束。歌词、音乐、画面和剪辑经常需要反复调整。用更开放、模块化的流程，可以让我更容易替换其中一个环节，而不需要整支作品重做。

Remotion 在这个流程里负责什么？

Remotion 负责把音频、图片、节奏和画面变化组织成视频。它更像一个代码化的视频合成层，让我可以用组件和时间轴的方式控制最终输出。

我实验的开源 AI 音乐视频制作流程：ChatGPT、Ace-Step 1.5、ChatGPT Image 2 和 Remotion

一句话流程

为什么我想拆开制作

第一步：用 ChatGPT 做歌词

第二步：用 Ace-Step 1.5 做音乐

第三步：用 ChatGPT Image 2 做画面

第四步：用 Remotion 做视频

这个流程的好处

我的实验心得

FAQ

这个流程为什么强调开源和可控？

Remotion 在这个流程里负责什么？

常见问题

这个流程为什么强调开源和可控？

Remotion 在这个流程里负责什么？

Wesley Chong

相关阅读

怎样写出更好的 AI Prompt？给普通人和小商家的 5 步实用框架

混元世界 2.0 手把手教程：从注册到生成第一个 3D 世界

空间 AI 是下一个前沿：World Labs、混元世界、Genie 3 与「生成现实」之争