正确使用提示词、歌词、时间结构、BPM 和图片
这份指南把 Google Lyria 3 的能力整理成更适合创作者的工作流,涵盖 Clip 与 Pro、自定义歌词、时间结构、图片转音乐、纯伴奏提示词、语言控制、输出解析与实用边界。
为什么需要这页
构建器底层是 Google Lyria 3,但整个工作流经过了产品层整理:更结构化的提示词、清晰的歌词与时间控制、更稳健的默认参数、异步编排,以及可复用的曲库管理。
Lyria 3 Clip
lyria-3-clip-preview
适用场景
快速测试、hook、loop、预览
时长
固定 30 秒
输出
MP3
Lyria 3 Pro
lyria-3-pro-preview
适用场景
更完整的歌曲结构,如主歌、副歌和桥段
时长
通常为几分钟,具体受提示词影响
输出
模型选择的音频 + 文本
1. 先选对模型
如果你想快速探索方向,先用 Clip。如果你已经明确方向,需要更长、更有结构的作品,就用 Pro。
Clip 固定为 30 秒,适合快速测试流派、情绪和 hook。
Pro 更适合需要主歌、副歌、桥段和更长情绪弧线的歌曲。
一个有效流程通常是先 Clip,再 Pro。
2. 写出更具体的音乐提示词
Lyria 在你描述具体音乐需求时,效果通常会比泛泛的情绪描述更好。
说明流派或流派混合:lo-fi hip hop、cinematic orchestral、indie pop、jazz fusion。
写出乐器:Rhodes、电弦乐、铜管、808、原声吉他、人声和声。
必要时写上速度和调式:85 BPM、D minor、G major。
描述情绪和能量:怀旧、激烈、梦幻、振奋、紧张。
如果用 Pro,且时长重要,也可以在提示词中说明目标长度。
3. 当歌词重要时,使用自定义歌词
如果你已经有明确的歌词方向,请清晰粘贴歌词,并与制作指令区分开。
使用 [Verse]、[Chorus]、[Bridge]、[Intro]、[Outro] 等段落标签。
把音乐方向放在歌词之前,让模型同时理解意图与文字。
如果你不想要演唱,就不要提供歌词,并明确写上仅伴奏。
4. 用时间结构控制节奏与编排
当你需要精确节奏推进时,告诉模型每个时间段应该发生什么。
例如:[0:00 - 0:10] Intro,[0:10 - 0:30] Verse,[0:30 - 0:50] Chorus。
时间结构可以帮助控制能量抬升、乐器进入、人声时机和结尾淡出。
这对预告片、场景音乐和定向 build-up 特别有用。
5. 当视觉应该影响音乐时,加入图片
Google Lyria 3 支持多模态音乐生成。你可以提供最多 10 张图片,让音乐跟随画面情绪、色彩和叙事。
可以使用 moodboard、概念图、封面草图、场景静帧或产品视觉。
只有当视觉方向确实重要时再加图,否则尽量保持请求简单。
如果提示词里也明确写出这些图片应转化成怎样的音乐情绪,效果通常更好。
6. 需要时强制输出纯伴奏
用于背景音乐、预告片、游戏和 beat 时,记得明确告诉 Lyria 不要演唱。
可直接写:Instrumental only, no vocals。
这句话应该直接出现在提示词里,而不是停留在隐含偏好上。
很多纯伴奏方向,可以先用 Clip 快速测试,再迁移到 Pro。
7. 提示词语言尽量与目标演唱语言一致
Lyria 会根据你的提示词语言去调整演唱风格与发音。
如果你想要法语歌词,就用法语提示词。
如果你想要英文演唱但又要混入日语段落标记,请明确写出来。
当你在一个请求里混用过多语言时,语言控制通常会变差。
8. 正确理解返回结果
模型会返回多个部分,其中有些是文本,有些是音频字节。
不要假设第一个部分一定是歌词或一定是音频。
需要遍历所有返回部分,识别文本与内联音频数据。
文本输出里可能同时包含歌词、结构说明或其他文字信息。