斜杠中年斜杠中年AI × 沟通 × 商业 × 人生
AI 实战指南

我实验的开源 AI 音乐视频制作流程:ChatGPT、Ace-Step 1.5、ChatGPT Image 2 和 Remotion

这篇文章拆解我实验的开源 AI 制作流程:用 ChatGPT 写歌词,用 Ace-Step 1.5 做音乐,用 ChatGPT Image 2 生成画面,再用 Remotion 把素材组织成视频。

2026-06-03更新: 2026-06-035 分钟阅读Wesley Chong
#开源 AI#AI 音乐#ChatGPT#Ace-Step 1.5#Remotion
我实验的开源 AI 音乐视频制作流程:ChatGPT、Ace-Step 1.5、ChatGPT Image 2 和 Remotion|AI 实战指南 封面图

摘要

这次实验的重点不是单一工具有多强,而是把歌词、音乐、画面和视频合成拆成四个可控步骤。ChatGPT 负责歌词结构,Ace-Step 1.5 负责音乐,ChatGPT Image 2 负责视觉,Remotion 负责把这些素材变成可发布的视频。

一句话流程

这次我实验的 AI 制作流程是:

ChatGPT 做歌词 → Ace-Step 1.5 做音乐 → ChatGPT Image 2 做画面 → Remotion 做视频。

我想测试的不是“AI 能不能一次生成完整 MV”,而是另一件更实用的事:如果把音乐视频拆成几个独立环节,每个环节都用适合的 AI 工具处理,最后能不能形成一个更稳定、可修改、可重复的工作流。

为什么我想拆开制作

很多 AI 创作工具都喜欢把自己包装成“一句话生成完整作品”。这个方向很吸引人,但在真实制作里,我更在意可控性。

一支音乐视频至少包含四层东西:

  • 歌词的主题和情绪
  • 音乐的旋律、速度和风格
  • 画面的角色、场景和氛围
  • 视频的节奏、转场和最终输出

如果全部交给一个工具,第一次结果可能会惊艳,但修改时就会很麻烦。歌词想改一句,音乐可能要重来;画面想换风格,节奏可能也会被影响。

所以这次我选择拆开来做。每个工具负责一个明确任务,出问题时也知道该回到哪一步。

第一步:用 ChatGPT 做歌词

我先用 ChatGPT 处理歌词。

歌词不是单纯把句子写得漂亮。对 AI 音乐来说,歌词还要有结构。它需要适合被唱出来,也需要给后面的音乐模型足够清楚的情绪方向。

我会先让 ChatGPT 帮我整理:

  • 主题
  • 语气
  • 主歌和副歌结构
  • 关键画面感
  • 哪些句子适合重复

这里我不会追求一次写到完美。我更喜欢先生成一个可用版本,再从中挑出有感觉的句子,慢慢修成更像自己的表达。

第二步:用 Ace-Step 1.5 做音乐

歌词有了之后,我把重点转到 Ace-Step 1.5

Ace-Step 1.5 在这个流程里的角色是音乐生成。它把歌词和风格方向转成可以听的歌曲。

我会关注几件事:

  • 旋律能不能记住
  • 节奏适不适合短视频
  • 人声和伴奏有没有打架
  • 副歌有没有足够清楚的情绪高点

AI 音乐最容易出现的问题,是听起来完整,但没有记忆点。所以我不会只听它“有没有生成成功”。我会特别检查副歌、开头几秒和整体能量,因为这些地方决定观众会不会继续听下去。

第三步:用 ChatGPT Image 2 做画面

音乐确定后,我再用 ChatGPT Image 2 生成画面。

这一步不是为了一张单独好看的图,而是为整支视频建立视觉世界。音乐已经给了情绪,图片要把这种情绪变成可见的场景。

我通常会把歌词和音乐感觉转成视觉提示,例如:

  • 主角是谁
  • 场景是什么
  • 色彩应该温暖、冷静,还是更梦幻
  • 画面是写实、电影感,还是偏插画
  • 每一段音乐适合什么视觉变化

这里的关键是统一感。就算每张图都很漂亮,如果它们像来自不同作品,放进视频里也会显得散。

第四步:用 Remotion 做视频

最后我用 Remotion 把所有素材变成视频。

Remotion 对我来说很有意思,因为它把视频制作变成一个代码化的时间轴。与其在传统剪辑软件里手动拖来拖去,我可以用组件、时间、参数和音频节奏来组织画面。

在这个步骤里,我会处理:

  • 图片出现的时间点
  • 镜头移动和缩放
  • 歌词或字幕的节奏
  • 画面和音乐段落的匹配
  • 最终视频比例和导出

Remotion 很适合这种实验,因为它让流程更可重复。如果我之后想换一首歌、换一批图,或者调整某个段落的节奏,不需要从零开始重新剪。

这个流程的好处

这套流程最吸引我的地方,是它很模块化。

歌词不满意,回到 ChatGPT。
音乐不满意,回到 Ace-Step 1.5。
画面不满意,回到 ChatGPT Image 2。
视频节奏不满意,回到 Remotion。

每一步都有清楚边界,修改成本比较低。这对一个人做内容非常重要,因为我们没有大型团队,也不可能每次实验都花很长时间重做全部东西。

我的实验心得

这次实验让我更确定一件事:AI 创作的重点不只是生成能力,而是工作流设计。

ChatGPT 帮我把想法变成歌词结构。
Ace-Step 1.5 把歌词变成音乐。
ChatGPT Image 2 把音乐情绪变成画面。
Remotion 把所有素材组织成视频。

当这些环节串起来,AI 就不只是一个工具,而是一条小型制作线。它还不完美,但已经足够让我用更低成本测试想法、做内容原型,并把作品推进到可以发布的状态。

FAQ

这个流程为什么强调开源和可控?

因为音乐视频不是只生成一次素材就结束。歌词、音乐、画面和剪辑经常需要反复调整。用更开放、模块化的流程,可以让我更容易替换其中一个环节,而不需要整支作品重做。

Remotion 在这个流程里负责什么?

Remotion 负责把音频、图片、节奏和画面变化组织成视频。它更像一个代码化的视频合成层,让我可以用组件和时间轴的方式控制最终输出。

常见问题

这个流程为什么强调开源和可控?

因为音乐视频不是只生成一次素材就结束。歌词、音乐、画面和剪辑经常需要反复调整。用更开放、模块化的流程,可以让我更容易替换其中一个环节,而不需要整支作品重做。

Remotion 在这个流程里负责什么?

Remotion 负责把音频、图片、节奏和画面变化组织成视频。它更像一个代码化的视频合成层,让我可以用组件和时间轴的方式控制最终输出。

分享这篇文章 / Share Article
Wesley Chong

作者

Wesley Chong

来自马来西亚居銮的软件开发者、数字顾问、Toastmasters 讲员。

专注帮助普通人用 AI 升级沟通、表达、商业与人生。

相关阅读