AI音乐的生成浪潮：技术科普、变革畅想与伦理应对

2024-06-01 阅读 50 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

技术科普：热闹的百模大战，着急的音频模型

1.1 从大语言到多模态，AI进入「日更」模式

2023年被誉为「生成式AI元年」。2022年11月，OpenAI 发布以GPT-3.5 模型为内核的ChatGPT。ChatGPT涌现出了上下文学习、思维链等高度智能，被认为具有颠覆式的技术突破、跨领域的应用价值，AI Agent等衍生方向也被认为具有平台和入口级意义。以此为节点，大规模参数、大算力、「暴力求解」风格的大语言模型（LLM）开启了历时性进程。短短几月，大量AI创业公司和科技厂商纷纷入场，LLM领域进入百模大战。

自然语言、图像、视频、音频等不同信息形式，在计算机领域被称为不同「模态」。多模态研究一直是人工智能领域的不同分支。大语言模型爆发后，多模态大模型也成为技术热点。计算机视觉领域，文生图模型在两年内有了快速飞跃。Midjourney在2022年2月发布了初版，同年11月的V4版的真实度和艺术感大幅提升；开源模型Stable Diffusion在2022年8月首次出现，2023年7月推出XL1.0版，体现了出色的写实性和提示词理解力。

视频生成向来被认为是大模型的技术高地，Runway、Pika等公司在此深耕已久。2024年2月，OpenAI推出了Sora模型生成的高质量视频范例，给定一段描述或一张静态图片，就能生成1080P的逼真视频，包含丰富的角色、动作和场景。文生视频领域从此被推入全新阶段。

1.2 音频模型：范式持续发展，爆发来得晚了些

在音乐领域，大模型技术突破似乎比想象中来得更晚一些。直到2024年3月Suno V3的发布，才引起了行业与社会的广泛关注。TME天琴实验室的音频技术负责人赵伟峰介绍到，其实2023年以来，音乐生成领域一直在持续深耕，不断有新模型和范式出现。如今技术范式有了一定共识。主要表现为：从符号音乐到音频模型研究、大模型领域Diffusion和Transformer架构引入、逐渐解决人声唱词问题、文本/语音/音乐/音效综合一体等。

业内代表性的音频模型技术范式：

202301，谷歌的MusicLM（以及202306，Meta的MusicGen）——采用MuLan/Clap跨模态和自回归的Transformer模型。根据文本提示词生成24kHz频率、长达5分钟的音乐，可指定曲风、乐器、情绪等，以纯音乐为主，基本不带人声。

202302，英国萨里大学和帝国理工学院的AudioLDM——采用Latent Diffusion模型架构，明显降低了Diffusion模型对算力的要求。实现了音乐、语音、音效等一体化。

202403，Suno V3（以及202404，Udio）——没有公开技术细节。根据文本提示词，生成不同风格的歌曲，长达2分钟。包含人声唱词，用户也可手动输入歌词。

202404，Stability AI的Stable Audio 2.0——采用类似Stable Diffusion 3的Diffusion Transformer（DiT）架构，长序列处理效果更好。可生成44.1kHz频率、3分钟的歌曲。除了文本提示词，可上传音乐或哼唱来生成。但人声唱词依然存在问题。

*谁是真正的里程碑？

MusicLM & MusicGen：从噪声生成音乐，技术里程碑

一线技术从业者指出，2023上半年，MusicLM和MusicGen就已解决了音乐生成中的大部分问题。在已公开的技术架构中，Transformer也是效果较好的（如何评价生成音乐效果，详见后文）。从技术层面而言，MusicLM和MusicGen更有里程碑意义。因为它将自然语言模态和音频模态进行了连接，并从噪声中生成了音乐。

Suno & Udio：解决人声唱词，成为一个好产品

Suno和Udio则重点解决了另一个问题：人声唱词。这让生成音乐真正变成了生成歌曲。从业者推测，它可能采用了类似MusicLM的架构生成音乐，或是使用一个现成伴奏，再将歌词（用户手动输入或调用大语言模型生成）用TTS技术演唱出来，产生对位效果。由于未公布技术方案，难以断定其技术突破性，但它很好地整合了相关技术，成为了一个好产品。

TIPS：评价AI生成音乐的主要指标（天琴实验室及合作团队经验总结）

1. 音乐性/乐理性：涉及旋律、和弦、编曲、节奏、乐器组合等，音乐的艺术性也作为考量。

2. 标签匹配度：用户希望生成的音乐和最终生成的音乐是否匹配。

3. 唱词（语义）：具有语义能力，包括多语言、语义的可懂度、语义的完整性。

4. 长序列的连贯性和结构性：虽然属于音乐性，但长序列是当前技术瓶颈，所以重点关注。短时的音乐性，不一定具备长序列的音乐性。

5. 音质：音质是否能达到可供用户欣赏的艺术作品水平。

6. 更多功能：比如支持更多输入、可编辑能力等。

1.3 技术路线：音频生成走热，或与符号音乐融合

以上可见，2023至2024年间，音频模型取得了快速的突破发展，这在几年前是不可想象的。在更早的阶段，AI音乐生成的技术热点是另一条技术路线：音乐符号生成。

音乐符号路线：词曲编录混均可控，但整体性不足

技术原理：提取出音频中的音乐知识（如词曲、和弦、乐器），类似MIDI，把它变成类似音乐功能谱的数据形式，拆分成「词曲编录混」各个环节来生成，包含AI作曲、AI编曲、AI歌声合成等技术。

长短版：最大优势是每个环节都可被控制，能更好地嵌入音乐人的工作流，成为辅助创作工具。但由于串联了多种技术，很难做到整体效果好。音乐是词曲编录混的有机融合，有时候词很好、曲很好，组合在一起却比较糟糕。另一个问题是，曲谱的训练数据相对音频要少得多。

音频模型路线：整体效果较好，但编辑/分轨困难

技术原理：端到端直接生成完整音乐。可以理解为，把一段音乐看作一个频谱图，把频谱图当作图片来训练AI，类似图片生成，找到自然语言和音频之间的对位关系。

长短版：生成的作品整体性强，但因为是端到端，想要进一步编辑调整（比如修改单句旋律）比较困难，获取分轨、MIDI这类制作文件也很难实现。另一个问题是，由于音频复杂度高（每秒至少有44100个数据点），提升音质需要投入极高的算力。

*路线之争？路线融合！

两条技术路线的竞赛中，随着MusicLM和Suno等模型产品的发布，让技术热点的天平又转向了音频模型一侧。不得不感叹，大模型的暴力求解风格在音乐领域也在被验证。但是，目前的音频模型依然面临几大技术卡点：可编辑性不足、长序列的音乐性、音质较差。

其中，「可编辑能力」的实用价值和行业呼声都很高，它也正是音频路线的短板，符号路线的长板。端到端模型反向解决编辑问题，则要对音频训练数据做更精细化的标注——回到了符号路线的逻辑。因此，DeepMusic灵动音科技的创始人兼CEO刘晓光认为，未来的音频模型和符号模型一定是协同起来的。我们可以用不同维度的音乐符号，通过音频模型来生成音乐。

AI音乐的生成浪潮：技术科普、变革畅想与伦理应对

应用变革：放下路线之争，各自投石问路

虽然音乐生成的技术架构、路线尚未完全公开和统一，但大方向已被验证，各方的技术竞赛和应用探索也在加速。以Suno、Udio为代表的端到端产品，在热潮过后需要思考其应用价值；DeepMusic作为符号路线的代表，正在新态势下更新自身能力；TME天琴实验室作为平台的技术引擎，更多探索的是AI音乐生成与音娱平台的深层关联。

2.1 Suno/Udio类产品：低阶替代、创作启发及更多？

Suno类产品引发的反响，除了技术突破，很大程度在于它的大众属性：第一次让普通人体会到了「创作」歌曲的美妙。虽然这种近乎「一键生成」的方式很难等同于传统创作，但这种体验的发生，让我们得以更合理地推演AI音乐的未来。

业内几个比较有代表性的认知：

Suno音乐水平：超过X%的音乐人作品。X的范围从50%-80%不等，反映从业者的主观经验而非准确测算。这一方面肯定了AI音乐已达到一个不低水准。另一方面也因为音乐人的参差不齐，许多作品质量本就不够高。

音乐内容过剩，AI音乐难以撼动目前的音乐消费格局。AI音乐来临前，音乐行业就已经供过于求，只有少数作品能获得高热度。这些作品或十分优质，或得益于强大的宣推。因此，达到中庸水平AI音乐，不足以改变现存格局，除非宣推环境也发生变化。

但部分品类将被AI接管：低阶配乐、公播音乐、短视频BGM等。因为它们相对标准化、模式化，AI比人的产出效率更高。此外，这些品类都不具有个人IP属性（听众通常不知道创作者是谁）。许多大热流行歌曲，往往都与创作者的个人IP绑定和相互加成。

音乐人可用Suno们启发灵感，「可编辑」成为大势所趋。虽然Suno音乐离专业音乐人的工作流比较远，但对音乐创作依然有启发性，毕竟创作是一个灵感性的实践活动。但想要往实用性发展，「可编辑能力」是一个刚需，这点在视觉生成领域也已被验证。

一个面向「中度音乐实践者」的简化音乐工作流可能诞生。刘晓光认为，中度实践者是一个爱玩音乐，但未必想了解复杂乐理的人群。因此，音频模型的发展会催生一种简化的音乐工作流：1)大模型生成伴奏+歌词 2)带有自己音色的AI歌手演唱 3)简单交互实现任意颗粒度修改 4)大模型制作专辑图、MV等发行物料。目前还受制于编辑能力和音质，但未来1-2年，这样的生产体验就能比较成熟。

TIPS：音乐市场人群细分（DeepMusic的市场研究）

根据对音乐的参与度和专业性不同，音乐人群可分为3类：专业音乐人、音乐实践者、泛音乐爱好者。音乐实践是一种介于专业生产和纯粹消费之间的状态。

1.专业音乐人：规模100万级。主要参与方式为创作与表演，约10万有制作能力。

2.音乐实践者：规模1亿级。参与方式包括玩乐器、音乐APP、音乐社团等。可再分为深度、中度实践者，最大的区别在于：中度实践者不一定有创作意愿，不需要精细控制音乐内容。

3.泛音乐爱好者：规模10亿级。绝大部分为听歌，也包含唱K、看音乐演出等行为。

2.2 DeepMusic和弦派：从专业工具扩散到不懂乐理的人

与Suno类端到端产品相比，符号音乐生成天然具有可编辑性，在服务专业音乐人上更具优势。DeepMusic是一家深耕符号路线的国内代表性的AI音乐创业公司。刘晓光对此分析到：音频模型如同「大力出奇迹」，具很高的不确定性，且国内训练成本是国外的10倍。去赌一个不一定花费多高和多久能成功的音频模型，ROI非常低；但符号模型在效果不够好时，有中间产物让用户自行修改，更具有阶段性价值。

随着音频模型的突破，DeepMusic会等到基础音频模型开源后跟进；并且发挥自身积累的优势，用精细化标注的闭源数据对音频模型进行控制。可见，从端到端产品突破可编辑能力，到符号路线公司整合音频模型，两种技术路线正在发生融合回归，且看谁能跑出更理想的成果。

DeepMusic的旗舰产品「和弦派」是一款辅助创作工具。2024年初进行过一次智能化升级，融入AI编曲、AI歌声等功能，能够一站式生成高质量Demo，并且各环节可控。但用户还需面对门槛较高的音乐功能谱。当前用户构成也偏专业化：20%音乐人、30%音乐老师、25%懂乐理的中度实践者、25%不懂乐理的中度实践者。4月底「和弦派」2.0版上线，刘晓光指出，下一步目标用户会泛化，面向不懂乐理和功能谱的人，正式进入中度实践者赛道。

2.3 TME天琴实验室：技术能力先行，寻找B/C端价值场景

大模型技术爆发后，国内不少互联网及硬件厂商均以不同程度加入竞赛。作为音乐娱乐平台的TME，面对语言、视觉、音频模型的技术演进，思考也从未停止。

TME天琴实验室高级总监吴斌认为，大模型有一个重要特点：核心模型数量很少，当结构足够通用时，就要靠堆算力堆数据去实验。与此同时，更优秀的开源模型不断出现，让许多公司的早期投入失去意义。整个行业还处在一个很动荡的状态，盲目投入并不可取。最关键的决策在于「怎么去跟进大模型趋势才最合理」。平台的核心能力是用户与场景，我们可以在开源模型基础上，重新理解场景，做更好的应用服务。

即便没有选择「All IN大模型」，但在技术快速更新期，天琴实验室仍做了这3件事：

认知能力跟进：吴斌强调，哪怕不去硬训模型，对它的一线认知、训练能力还是要先具备。等到时机成熟，能够马上发力。视觉模型成为天琴的早期大模型发力点，2022年7月开始自主研发了Muse音乐视觉技术，并从图片进阶到视频领域。2024年3月，MuseV虚拟人视频生成框架正式开源，在视频一致性、时长和口型生成方面领先行业，受到业界好评。

AI应用试点：基于技术储备，天琴也活跃地进行应用试点。例如应用于直播间的礼物生成，可让用户文字生成有创意、个性化定制的礼物，丰富了直播玩法，带来了可观的商业收益。有时看似微小的场景，会有超出预期的反响，这也进一步加深了平台对用户场景的理解。

大模型加速：大模型的技术特点决定了它的高昂的调用成本。大模型加速，即是降低模型的推理成本。天琴研发了MUSELight大模型推理加速引擎，并发现加速版Stable Diffusion的成本能达到原版的1/10甚至更低。这对一个服务海量用户的C端平台，非常有意义。2023年5月，天琴也将关联的3项加速版本向全行业开源。

由于视觉、语言模型技术成熟较早，早期天琴的音频模型投入占比并不高。赵伟峰介绍到：2023至2024年，天琴的音频模型投入在不断加大，研发重点也从歌声合成模型「琴韵」转向了歌曲生成模型「琴乐」。

「琴韵」歌声合成：2023年起，天琴的「琴韵」歌声合成模型逐渐成熟。与此同时，业内出现了「AI孙燕姿」事件，反映出歌声技术可能被滥用的风险。于是，天琴找出了两个合规应用的场景：一是作为用户玩法，在K歌场景下用户上传自己的声音，生成任意演唱作品；二是歌手授权合作，促成了「AI王力宏」演唱《Letting Go》等大热歌曲的事件。

「琴乐」歌曲生成：去年以来，基于符号路线的AI作曲、编曲技术已在QQ音乐上线多个应用。2024年，天琴发力音频生成模型「琴乐」。4月完成了文生纯音乐的1.0版，已整合到「启明星」音乐制作服务平台中。「琴乐」还参与到上海民族乐团的音乐会创作中，取得了不错反响。歌曲生成等复杂能力可以拭目以待。作为这一轮AI技术下的用户平台，TME选择踊跃但理性投入，争取打造技术能力与用户价值之间的最佳桥梁。

AI音乐的生成浪潮：技术科普、变革畅想与伦理应对

AI安全：应对未知的一道防线，重要的应是多方参与

AI技术与应用昭示着潜在巨大的产业变革和社会影响，如今这些变革已近在眼前。反思技术的社会影响，以科技伦理视角，尽可能干预技术走向，是我们应对不确定性的底线。在大语言模型领域，价值观对齐问题已经成为产学界和政策制定者的关注重点。在AI音乐领域，围绕音乐版权、创作者生存的议题也成为了讨论焦点。

3.1 音乐版权：回到「鼓励创作」的初衷

在语言、视觉、音频模型领域，相关版权争议同时存在。主要涉及两个关键问题：①模型训练阶段，训练数据的版权合规问题；②内容生成阶段，AI生成物的可版权性问题。

在训练阶段，AI模型需要使用海量数据做预训练。如果训练数据中包含受著作权法保护的版权作品，需要符合著作权法中「合理使用」规则，或得到版权方授权。

在这一问题上，ChatGPT、Stable Diffusion等产品及背后公司都面临着来自《纽约时报》等版权方或艺术家的诉讼，案件尚在推进中。一方面，通过版权保护来鼓励创作，是内容行业长远发展的命脉；另一方面，新技术带来的潜在机会、竞争者挑战正在倒逼产业加速。两种诉求需要得到平衡共赢。目前全球范围内，这一问题还没有明确进展。随着技术产品走向成熟，AI公司与版权方也正积极谋求谈判，寻求许可授权并分享收益，这是未来的一个重要推动方向。

在生成阶段，AI生成的内容是否具有版权？版权归属于谁？目前在大部分国家，著作权法都不认可人类以外的主体。但生成式AI发展至今，各国立法、司法都在积极探讨相关保护方式，一个重要原因在于：人类在AI生成中还起着非常重要的作用。以ChatGPT为例，人类在3个环节中体现了干预或创造：①模型训练中的“人工反馈强化学习”环节、②用户使用中的创造性提问、③内容生成后的调整优化。注：参考《2023植德人工智能年刊》

2023年末，国内首个「AI文生图」著作权案件在北京互联网法院审结，做出了开创性探索。了解这一案件的审理思路，有助于我们理解问题的实质和走向。

国内首个「AI文生图」著作权案件：（参考人民法院报）

案件回顾：原告李某使用Stable Diffusion，通过提示词生成图片，发布于小红书平台；此后被告刘某在百家号的一篇文章配图中使用此图，未获原告许可，并截去了署名水印。

审理要点及结果：原告在最初构思到最终选定图片过程中，通过设计人物呈现方式、选择提示词、设置参数、多轮图片优化等活动，投入了原告的审美选择和个性判断。涉案图片体现出原告的「独创性智力投入」，故被认定为作品，著作权归属原告，被告侵害了信息网络传播权和署名权。

裁判解析：利用AI生成的内容，是否构成作品，需要个案判断，不能一概而论。本案坚持著作权法只保护“自然人的创作”的观点，同时进行两点考量：①传统理论的全新应用场景。AI时代，人类创作工具已发生根本性变化，但并不意味着人类对画面元素不需要选择和安排；二是法律判断之外的价值判断。认可「作品」属性和「创作者」身份，有利于鼓励人利用AI工具进行创作，促进AI生成内容的标识和监管，强化人在AI发展中的主导地位，推动AI技术的创新发展和应用。

业内法律专家也指出，这一判决只适用于案件自身，还不能作为类似案件的参照。AI生成内容的「可版权性」依然存在争议。一个较为普遍的操作思路是：并非有人参与的就是创作，需要判断人的参与程度。且在语言、视觉、音频等不同领域，参与程度有不同的认定方法。

这两个问题均有很高的复杂性，找到共赢解法仍需时间。但我们能看到，背后一以贯之的价值逻辑：著作权法的立法目的，是通过保护人类的「独创性智力投入」，来「鼓励创作和传播」。AI技术有着解放生产力、促进内容行业发展的巨大潜力，却不能以牺牲人类创造力为代价。我们期望通过辨析、约束和利用，让它能正向推动创造力的繁荣。

3.2 人机关系：放下竞争，寻求协作

人类创作者会不会被AI替代？是另一个讨论热点。不只AI音乐，大模型技术乃至每一轮技术革命出现时，人们都有类似的不安。但历史结果表明，新技术一定会淘汰一部分低阶工种，但它不替代整体人类。并且随着低阶工种的淘汰，倒逼人们去创造更能体现自身价值的工作。于是就有了这句调侃：淘汰你的不是AI，而是会用AI的人。

具体到AI音乐行业，前文对Suno的几则判断也大致表明：由于音乐内容供过于求，想要获得市场认可，往往需要做到极高水准，或被强大的宣推驱动，这是AI音乐所不具备的。优质作品中蕴含了人类艺术家的独特个性、经验与情感，这也是AI音乐所不具备的。但是，罐头音乐等低阶工种，应该逐渐就被AI接管了。

与此同时，速成的AI音乐能够启发音乐人的灵感，AI工具能够解决音乐人工作流中的非创造力劳动。所以，更好的视角不是与之竞争，而是站在AI的肩膀上。知名音乐人、制作人陈珊妮曾鲜明地表达：创作人该在意的或许不是「我们是否会被取代」，而是「我们还可以做些什么」。回到人类的能动性。对于音乐人发展，技术从业者们也给出了一些友善建议：

技术从业者对音乐人的友善建议：

吴斌：我觉得大家不妨多听一下，多玩一下。因为这个趋势是挡不住的，哪怕你不拥抱，大部分音乐人也会拥抱，最后还是被倒逼，那不如早一点。去了解AI能轻易做到什么，做不到的是什么。有些东西AI就是做不好，这时候音乐人就能发挥自己的优势了。

刘晓光：简化的音乐工作流将一定程度上成为新的音乐生产方式，建议音乐人了解，并和AI配合。也请相信AI会越来越可控，让音乐人实现自己想要的创作。但是非IP化歌曲，应该慢慢就真做不过AI了，音乐人需要越来越注重自己的IP属性，做自己的专属表达。

3.3 多元视角：再强调也不为过

李飞飞（斯坦福大学首任红杉讲席教授、前谷歌云人工智能及机器学习首席科学家）曾指出，训练人工智能的高昂成本，正在将学术界排除在外，成为商业公司的特权。斯坦福大学报告指出，2022年科技行业贡献了32个关键的机器学习模型，而学术界仅有3个。这导致一个问题：商业用途的技术快速发展，公共价值、解决社会风险的技术显著落后。

虽然这一问题难被彻底解决，但当质疑之声变大之后，也会带来更多公共领域的保障行动发生，并能激发商业公司的更多自省和安全部署。

技术、产业、学界、第三方等，拥有不同的价值导向和专业能力，这种多元视角的参与，更可能让新技术朝符合人类价值的方向发展。在音乐领域，艺术家与产业、技术之间也存在多元视角。但由于高昂的技术门槛、艺术门槛，这两类人群之间存在很大的信息差。

赵伟峰指出，在天琴实验室，研发团队8成以上的人员都要具备一定音乐素养，尤其符号路线需要更深的音乐知识。音频模型路线中，还需与专业音乐团队合作，对AI生成内容做评判。这样的互动才能让AI音乐更符合艺术家的标准。

专业评判只是最基础的参与形式，这种多元视角的对话协作，还有助于解决更为重大的问题。例如，陈珊妮曾提出一个锐利的见解，认为如今特异的音乐越来越少。因为数字音乐以来，音乐一直在被分类，让人便于管理和更快聆听。但如果有个人特质的东西不在电子类、嘻哈类，那它是什么？它的流量就会降低。AI音乐也类似，它容易让各种技术指标趋于均值，但美感并不是这样的。

又例如，吴斌从技术原理视角给出了对于AI音乐水准上限的判断：大模型技术路线的实质是，从人类内容中学习，它本质上没有一个抓手去超越人类内容；但如果我们讨论AGI，就涉及另一个技术路线：强化学习。它能让AI在一个环境中自行探索试错，理论上就有可能突破人类已有内容的瓶颈。

我们需要来自艺术家的审美经验、人文关怀及理性的质疑声音，也需要来自技术从业者从底层原理出发的可靠推论，以及产业、学界及更多人……通过多元视角，用理性精神和技术力量去修复技术变革中的偏误，引导人工智能领域的良性发展。

文章来源于“腾讯研究院”，作者“TME”

TE发布2024年《行业技术指数》报告：中国是对AI技术信心最强国家

关联网址

关联标签

#AI工具 #AI技术 #AI模型 #音乐人

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

AI音乐的生成浪潮：技术科普、变革畅想与伦理应对

技术科普：热闹的百模大战，着急的音频模型

1.1 从大语言到多模态，AI进入「日更」模式

1.2 音频模型：范式持续发展，爆发来得晚了些

1.3 技术路线：音频生成走热，或与符号音乐融合

应用变革：放下路线之争，各自投石问路

2.1 Suno/Udio类产品：低阶替代、创作启发及更多？

2.2 DeepMusic和弦派：从专业工具扩散到不懂乐理的人

2.3 TME天琴实验室：技术能力先行，寻找B/C端价值场景

AI安全：应对未知的一道防线，重要的应是多方参与

3.1 音乐版权：回到「鼓励创作」的初衷

3.2 人机关系：放下竞争，寻求协作

3.3 多元视角：再强调也不为过

TE发布2024年《行业技术指数》报告：中国是对AI技术信心最强国家

AI化身恋爱军师，大模型分析爱情靠谱吗?

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

AI音乐的生成浪潮：技术科普、变革畅想与伦理应对

技术科普：热闹的百模大战，着急的音频模型

1.1 从大语言到多模态，AI进入「日更」模式

1.2 音频模型：范式持续发展，爆发来得晚了些

1.3 技术路线：音频生成走热，或与符号音乐融合

应用变革：放下路线之争，各自投石问路

2.1 Suno/Udio类产品：低阶替代、创作启发及更多？

2.2 DeepMusic和弦派：从专业工具扩散到不懂乐理的人

2.3 TME天琴实验室：技术能力先行，寻找B/C端价值场景

AI安全：应对未知的一道防线 ，重要的应是多方参与

3.1 音乐版权：回到「鼓励创作」的初衷

3.2 人机关系：放下竞争，寻求协作

3.3 多元视角：再强调也不为过

TE发布2024年《行业技术指数》报告：中国是对AI技术信心最强国家

AI化身恋爱军师，大模型分析爱情靠谱吗?

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

AI安全：应对未知的一道防线，重要的应是多方参与