📄

Request My Resume

Thank you for your interest! To receive my resume, please reach out to me through any of the following channels:

Gemini 3.1 音乐创作能力专业音乐人级别亲测:离专业音乐模型还有多远

Digital Strategy Review | 2026

Gemini 3.1 音乐创作能力实测:离专业音乐模型还有多远

文 / 果叔 · 阅读时间 / 8 Min

文章主信息图(PPT级)

写在前面

了解我的朋友肯定知道果叔我是一个专业音乐人转行软件行业的奇葩(甚至我的游戏配乐作品覆盖的人群可能比我本人知名的多,比如古早版本的开心消消乐~)。

所以对AI 音乐领域的应用和商业化尝试我可谓是非常早的一批早鸟,包括我目前很重要的个人项目也是音频领域的AI SaaS,  所以说,对于Gemini 3.1 的Creat Music 能力测评,我当仁不让!!

如果你最近在 Gemini 里点开了“Create music”,大概率会有一种既惊喜又别扭的感觉:

这篇文章不是“功能快讯”,而是一篇实测复盘。我把结论先放前面:Gemini 这波音乐能力,已经是很好的“语义驱动音乐草图工具”,但还不是一套能稳定替代专业音乐生成平台的生产系统。

01

一句话先定性:它到底是什么能力

先把名词理清楚,避免后面讨论跑偏。

很多人会说“Gemini 3.1 支持音乐创作了”。严格来说,用户侧体验是对的,但技术栈上要区分两层:

  • 01Gemini App 入口新增了音乐生成工具

  • 02

这个工具背后的音乐模型是 Lyria 3,不是“Gemini 文本模型直接作曲”。

官方在 2026 年 2 月 18 日发布的说明里写得很明确:Gemini App 接入了 Lyria 3,主打 30 秒短曲、文本/图片(以及部分场景下视频)驱动创作,并处于 beta 阶段。

这件事非常重要,因为它直接决定你应该拿它做什么:

把它当“灵感草图机”,你会觉得很好用;

把它当“完整音乐制作工作站”,你会很快失望。

02

我这次怎么测的

这轮测试不是只跑单一流派,而是故意横跨了不同难度层级:

测试的实际音频可以直接听:

合成器浪潮(纯音乐)

  • 提示词:我喜欢合成器浪潮风格的电子音乐,帮我生成一首,纯音乐

清净酒吧融合爵士(女主唱吟唱)

  • 提示词:帮我生成一首适合清净酒吧的融合爵士曲子。带有女主唱吟唱,歌词你自己决定。

Dubstep(炸裂节奏)

  • 提示词:帮我生成一首Dubstep 的舞曲,节奏炸裂。

国风流行(传统乐器 + 戏曲腔)

  • 提示词:帮我生成一首中国古风流行曲,包括中国传统乐器,但总体上是流行音乐不是纯古乐,女声吟唱,可以带有戏曲腔段落。

前卫金属核(强调 Breakdown)

  • 提示词:帮我生成一首前卫金属核乐曲,突出Breakdown 段落

影视奇幻配乐(“哈利波特感”)

  • 提示词:模仿哈利波特主题配乐的主题,帮我生成一段影视配乐。

印象派钢琴(“德彪西气质 + 晚期浪漫主义色彩”)

  • 提示词:我想要你变身为当代德彪西,给我一首类似月光 的印象派 钢琴曲,同时带有一定晚期浪漫主义色彩

参考音乐二创(上传音乐让它“类似风格再创作”)

  • 提示词:模仿这个音乐给我做一个类似风格的音乐

也就是说,这不是“能不能出声”的测试,而是测四件更关键的事:

  • 01

长度与结构控制;

  • 02

语义遵从;

  • 03

风格听辨与迁移;

  • 04

音乐性与制作完成度。

流程信息图(PPT级)

流程图用于解释方法论执行路径。

03

核心结论(你可以先看这个)

结论 1:目前仍是 30 秒短曲能力,不是完整歌曲流水线

你的测试里最关键的一条是:当你要求“完整 3 分钟曲目”时,Gemini 在文案上说“已经为你生成完整版本”,但实际能力边界仍停留在短时长。

这一点和官方说明一致:Gemini App 端目前交付的是“最多 30 秒”的音乐片段。也就是说,它现在没有形成 Suno 那种“从片段到整曲的可持续扩展链路”,至少在 App 产品层你看不到类似“Expand/继续生成整曲”的成熟工作流。

这不是小差异,是产品定位差异:

Gemini 音乐更像“快速表达”;

专业音乐模型更像“可编排生产”。

结论 2:语义理解很强,轻提示就能“方向不太跑偏”

这点你的测试非常有说服力。你给的提示词很多并不“工程化”,但模型大方向通常对:

合成器浪潮就是偏霓虹电子感;

国风流行会给出古风质感;

酒吧融合爵士会更柔和更慵懒。

这里体现的其实不是“音乐建模本体特别强”,而是 Gemini 语义理解 + Lyria 音乐生成 这套组合把“意图翻译”做得很顺。对普通用户来说,这是巨大门槛红利:不用学一堆专业 prompt 语法,也能快速得到可听结果。

结论 3:当前不具备可靠的“音乐参考二创”能力

你上传了参考音乐,让它做类似风格再创作,结果“驴唇不对马嘴”。这个观察我认为非常关键,而且是这篇文章最有价值的部分之一。

我的判断(明确标注:这是基于行为与文档能力边界的推断)是:

Gemini App 的“Create music”主路径仍然是语义驱动;

它支持图像/视频语义启发,但并没有公开承诺“对上传音频做高保真风格迁移”;

当你喂入音频时,更可能走到 Gemini 的通用多模态理解能力,再映射成新的音乐生成请求;

这条链路擅长“理解内容主题”,不擅长“精确复刻音乐风格指纹”。

所以你看到的结果是:它知道你想要什么“气质”,但抓不到你要的“声音结构细节”。

结论 4:质量和遵从性还达不到专业音乐模型水位

你给出的逐流派评价很专业,也很准确:

  • •国风流行

:方向对,但戏曲腔没有真正兑现;

  • •Dubstep

:有标志元素,但音乐性和旋律组织明显薄弱;

  • •前卫金属核:听感上“重”了,但风格学上跑偏,Breakdown 指令未被有效突出。

这说明当前模型在“标签级风格命中”上还可以,但在“子流派语法、结构段落控制、细节表演风格”这些专业层面还不稳定。

对于普通创作者,这是可用状态;对于音乐制作人,这是“可参考,不可依赖”。

数据对比信息图(PPT级)

用数据图解释关键对比和结论。

04

你这轮测试里最值得行业关注的细节

1) 安全策略正在显性影响创作体验

你在“模仿哈利波特主题”“模仿德彪西《月光》”这些请求上,遇到的是典型版权/风格模仿护栏:

有时它直接拒绝“模仿特定 IP/作曲家”;

有时它给你“相似氛围但原创表达”的替代品。

官方也明确写了类似策略:Lyria 3 设计目标是原创表达,而不是直接模仿在世或既有艺术家的作品;即使你在提示词写具体艺术家名,也会被当作“广义灵感”处理。(但实际上我觉得这是个脱裤子放P 的事情,所谓原创表达,难道不是当代或者既有艺术家作品的训练集搞出来的?)

2) “会说”不等于“会做完整编曲”

Gemini 的回复文案非常完整,经常会出现“宏大交响、分段推进、高潮塑造、混响空间”等叙述。但从实听来看,这些文字描述和音频成品并非始终一一对应。

这是当前很多多模态产品共有的问题:

文本解释能力很强;

生成结果在细节维度还不稳定。

所以测试音乐模型时,不能只看它“怎么描述自己”,一定要以音频结果为准。

适用性矩阵图(PPT级)

矩阵图用于说明适用边界和策略选择。

05

按创作场景给一张“可用性地图”

A. 适合现在就用的场景

  • 01

社媒短内容 BGM(30 秒以内)

  • 02

灵感草图与风格探索

  • 03

非专业用户的“低门槛作曲体验”

  • 04

快速做情绪版 Demo 给团队沟通

B. 勉强可用、但需要人工强干预的场景

  • 01

需要特定流派语言细节的短曲(如重型子流派)

  • 02

需要严格段落结构控制的作品

  • 03

对人声表现有明确表演风格要求的作品

C. 目前不建议依赖的场景

  • 01

完整 3-4 分钟商业歌曲一次成型

  • 02

高一致性的参考曲风迁移/重编

  • 03

对编曲层次与混音质量有发行级标准的生产流程

06

给创作者的实操建议(现在就能用)

建议 1:把它当“前置 ideation 层”,不是“最终母带层”

正确工作流不是“让它直接出成品”,而是:

先用 Gemini 快速试方向;

选中 1-2 条最有潜力的动机;

再转入专业工具做结构扩展、编曲细化、混音母带。

建议 2:提示词要写“功能指令”,不要只写“审美形容词”

比如不要只写“炸裂 Dubstep”,而是补上:

目标速度区间(BPM)

段落意图(intro / build / drop / breakdown)

乐器角色(sub bass、growl lead、snare pattern)

人声类型(若需要)

即便它不一定 100% 命中,也会显著降低跑偏概率。

建议 3:把“流派正确”拆成可验收项

你这次最专业的做法就是没被“像不像电子乐”这种粗维度骗过去,而是看:

是否真的具备该子流派关键语法;

指定段落是否被突出;

音乐性是否成立。

这套验收框架值得直接复用。

07

给产品方的一点直话

如果 Gemini 想把音乐能力从“好玩”推进到“可生产”,接下来至少要补三块:

  • 01时长与结构控制能力

:从 30 秒走向可控扩展;

  • 02参考音频迁移能力

:不是“理解语义”,而是“理解声音风格结构”;

  • 03子流派细粒度遵从

:不只是命中大类标签,而是命中具体写作语法。

这三件事每前进一步,创作者对它的定位都会上一个台阶。

08

最终结论

作为一个前专业音乐人视角下的实测,我认同你给的总判断:

现在的 Gemini 音乐能力,方向感比完成度更强;

语义遵从“够快够方便”,但离专业音乐模型还有明显距离;

它最有价值的位置,是创作流程前端,而不是后端。

换句话说:

它已经是很好的“音乐创意发动机”,但还不是“可稳定交付的音乐制作工厂”。

如果你把期待放在这个位置上,你会觉得它很有用;如果你把它当 Suno/Udio 的直接替代品,你会持续失望。

09

附:本次外部信息核对(用于事实校准)

  • 01

Google Workspace Updates(2026-02-18):Gemini App 接入 Lyria 3,30 秒音乐生成,8 种语言,18+ https://workspaceupdates.googleblog.com/2026/02/create-custom-soundtracks-with-lyria-3.html

  • 01

Google Keyword(2026-02-18):Lyria 3 beta 上线 Gemini App;强调原创表达、非直接模仿艺术家;含 SynthID https://blog.google/innovation-and-ai/products/gemini-app/lyria-3/

  • 01

Gemini 官方音乐页:Lyria 3 在 Gemini 中生成 30 秒曲目(含人声/歌词/封面) https://gemini.google/us/overview/music-generation/

  • 01

Gemini Apps Help:当前曲目“up to 30 seconds”,支持下载分享,存在配额限制 https://support.google.com/gemini/answer/16901237

  • 01

Gemini API 文档(Lyria RealTime):实时流式、可持续 steering、实验模型、且当前为 instrumental only https://ai.google.dev/gemini-api/docs/music-generation

  • 01

Google DeepMind Lyria 3 Model Card:输入文本、输出音乐+歌词、评测维度与安全治理框架 https://deepmind.google/models/model-cards/lyria-3/

  • 01

Suno Help(对照“整曲/延展能力”):官方 Extend 工作流说明 https://help.suno.com/en/articles/2409601 d

Mr. Guo Logo

© 2026 Mr'Guo

Twitter Github WeChat