三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024-09-27 阅读 62 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

热门

今天凌晨，N多人给我发了一张图，说警方通报了，问我到底怎么看三只羊录音是不是AI这事。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

还有朋友跟我说，有个号称国内AI第一人的，之前信誓旦旦的说这录音必不可能是AI，AI做不出来。所以这个通报背后，会不会背后是有些阴谋论？

我差点都喷了，国内AI第一人？我第一反应是院士也下场参加这种无聊的事了？

然后查了一下…哦…..算了不提了。

我觉得我有必要科普一下，就是AI到底能不能做到三只羊卢总录音级别？

我可以明确的给你一个回答，是：能。

先简单说下前情提要。

三只羊跟辛巴有一段乱七八糟的风波，反正就是互相掐架，你来我往，好不热闹。

然后风波正甚时，三只羊董事长卢文庆的一段炸裂的录音被全网疯传。

就是这个，我做了删减，其中一些不雅片段我也全部消音处理了。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

内容炸裂不堪入耳，信量极大且内容十分惊人，其中涉及权斗、出轨等等等，总结一下就是卢总自爆和三只羊所有女主播有过不正当的关系。还点名看不起张一鸣。。。

大概就是这么个事，然后三只羊就举报了，说这录音是AI合成的。

网上就吵得不可开交了，大部分人最大的理解就是，AI做不出来这种级别的录音，为什么？因为那个“国内AI第一人”说的。

这段录音听着很真实对吧，有情绪有方言有杂音，所以问题其实就是两个，这段录音，到底是不是AI做的？以及，AI到底能不能做到这种级别的录音？

第一个问题，今天已经有了答案，我永远无条件相信我们的公安，他们发布的通报，我也相信就是事实，这个没有任何可以争议的。所以第一个问题的答案相当明确，那就是AI做的。

那么第二个问题，最关键的来了，AI到底能不能做到这种级别的录音。

我的答案，当然能。

首先，我需要在这里科普一下，AI是个大类，而在细分里面还有很多赛道。

有语言大模型（GPT、Claude、豆包等等），有AI绘图（MJ、SD、FLUX等等），有AI音频（11Labs、SVC、GPT-Sovtis、Suno等等）、有AI视频（Runway、可灵、豆包、Pixverse等等）、有AI 3D（TripoAI、Meshy等等）。

而AI音频里，又分为AI生成音乐、AI生成音效、声音克隆。

这个录音，属于声音克隆这个赛道里面的。

所以不要说AI能做出来这个就比OpenAI比ChatGPT还要牛逼，都不是一个赛道的，有啥可比的，就像你说哇这个洗衣机洗衣服真牛逼，比那个冰箱还要牛逼。。。

而声音克隆，又分为两种：TTS（文本生成语音）、SVC（AI换声）。

TTS就是给一段一个人的人声，只要几秒几十秒的素材，就能训练一个AI模型，然后直接用文字就能生成特定人声音音频的语音合成，现在最好的开源项目应该是GPT-sovits。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

SVC你就可以通俗的理解成AI换声，就是AI时代的变声器。现在AI变声器领域三个扛把子项目：So-vits-svc、RVC、DDSP。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

OK，现在清楚在AI声音克隆领域，也有两种手段来实现声音伪造了吧。

TTS项目，优点是数据要求短，5秒的音频素材就行，就能克隆你的声音，后续只要给文本就能生成音频，成本极低效果极快。但是缺点就是，情绪、停顿、真实度的上限都很低，听个几十秒，就能非常轻松的听出来哦这个是AI味道。

而之前，大家觉得AI做不了卢总的音频伪造，都是先入为主的带入了TTS的思路，觉得一定是用TTS做出来的。

非常坦率的讲，TTS做卢总这种级别的音频，就我所知道的市面上公开的产品（不包括各大公司内部实验室的项目），确实有点难。

但是，思路打开，TTS做不了这个，但是SVC呢？

SVC的缺点，就是成本高，需要起步30分钟的音频数据集，然后跑几个小时的炼丹训练这个人的人声模型，最后还需要再找一个人录一段音频，再用SVC换声，把音色替换过去。

而优点就非常的直白了，这玩意能保留说话人的所有情绪、停顿、语气、方言等等等等，质量上限约等于无限，只要模型好，你根本听不出来这到底是不是AI的。

连歌声都可以无缝换声，换你个说话声音，简直就是个小case了好吧。

去年爆火的AI孙燕姿，就是拿svc做的。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

我也写过好几篇关于SVC的教程。

用SVC做特定人物AI配音 – 你奶奶都会的AI声音教程

AI唱歌之终极喂饭教程 – SVC的极限就在这了

也给大家听一下，我用SVC换声后，用我自己的声音替换李荣浩的模特的效果。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

这是AI直出，我只加了背景音乐。

这就是SVC。

所以用SVC做卢总的AI音频伪造，步骤也很简单。

1. 从网上收集卢总的30分钟左右说话数据，这个很好找，毕竟他是名人。

2. 用SVC或者RVC，把卢总的声音清洗完，训练成一个AI模型。

3. 卢总是安庆人，合肥那边安庆人很多，找一个跟他口音差不多的，把需要合成的音频自己先念一遍。

4. 最后用SVC的AI模型，把念完的音频替换成他的声音。

女声同理。

至此，完毕。

如果你还想听着真实一点，就用剪映啥的加点风噪环境音，太多了，随便找，你要环境音，传统音频软件能处理，当然，你也可以拿着带环境音的数据集进去训练，虽然我不推荐这么做。。。

特别是原视频那个方式，是把录音发到手机上，再用手机播放，用另一台手机来录，本身环境音就一堆了，还夹在着哥们背景笑声，乱七八糟的。这都属于场外因素了。。。

所以，回到第二个问题，AI能不能做卢总那种的伪造录音？当然能。

不要把AI想的太神话，也别把AI想的太垃圾，人工智能，很多时候是人工+智能。

现在的TTS，解决不了情绪问题，那为啥非要让AI去搞定情绪？

你人工念完了换音色不就行了？这就是人工+智能。

思路打开，不要太局限。

AI是你的助手，是辅助工具，是让你用的，不是让你啥都甩给他当甩手掌柜的。

最后，我想声明一下。

我写下这篇文章，不是让大家去知道这个技术，而去犯法，做一些法外之事，成为法外狂徒。

而是希望做一个关于AI音频的小小科普，抹平信息差，让大家知道有这么个技术，上限就在这，不要觉得AI做不到就可以掉以轻心。而是要知道，现在的AI，可以达到什么地步，什么水平。

在人工+智能的加持下，能做到什么事情。

科技的进步是不可逆的，所有人都是这巨大洪流中的一滴水，只会被裹挟着前行，知道永远比不知道好，知己知彼，方能百战不殆。

我们学习很多东西，学习AI，很多时候，是为了保护我们自己。

还有，保护我们的家人。

然后，更好的生活。

文章来自于“数字生命卡兹克”，作者“卡兹克”。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

打完“价格战”，大模型还要比什么？

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

打完“价格战”，大模型还要比什么？

这家印度教育科技公司B轮融资2.1亿美元，正筹划2025年上市

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

打完“价格战”，大模型还要比什么？

这家印度教育科技公司B轮融资2.1亿美元，正筹划2025年上市

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿