三只羊“财色录音”是假的，但背后技术是真的恐怖

2024-09-29 阅读 34 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

热门

别光想着说 “ 技术无罪 ” ，上个这么喊的人已经蹲了好多年，现在都出来了。

要说这段时间哪家公司风头正盛，那非三只羊莫属，隔三差五就要上一回新闻，还是法制栏目的那种。

这不前几天，月饼门的事件还没过去，又来了个录音门。

事情是这样的， 9 月 20 号的时候网上突然流传出了一段，疑似三只羊高管卢某的录音。

录音里涉及到了多位三只羊的女主播，具体内容咱在这就不多做讨论了，但确实很炸裂。。。

三只羊“财色录音”是假的，但背后技术是真的恐怖

录音爆出来后，就在网上迅速引起了一波热度。有人说这段录音纯纯是男的喝多了吹的牛逼，但讨论的风向很快又变成了这玩意儿，到底是不是 AI 生成的，甚至还钓出来不少所谓的 AI 行家，开始一顿分析。

结果没两天，警方的通报就出来了：都散散吧，是 AI 干的。

三只羊“财色录音”是假的，但背后技术是真的恐怖

而这次事件的另外一位主角， Reecho 睿声公司也终于浮出了水面，锤了自己的用户一把。

三只羊“财色录音”是假的，但背后技术是真的恐怖

有意思的是，即使是官方都出面了，但还是有网友觉得卢某是 “ 酒后吐真言 ” ，通报也不过是把锅，甩给了没法儿自证的 AI 。

但不管咋说，人官方调查通报都出来了，你信也好不信也罢，这事儿就这么定调了。

不过以差评君对 AI 语音的了解，像三只羊录音门这种情况，的确是有可能的。主要是现阶段的 AI 语音技术，确实已经挺成熟的了。

三只羊“财色录音”是假的，但背后技术是真的恐怖

因为我们只需要上传一两句话，剩下的直接甩给 AI 就行，分分钟就能克隆一个人的音色。

这么说吧，现在 AI 语音合成里比较常见、开源项目也比较多的，就数TTS 、 SVC&RVC 两大类技术。

三只羊“财色录音”是假的，但背后技术是真的恐怖

所谓 TTS ，简单来说就是Text To Speech ，把文本转化成语音。像很多 AI 数字人、有声书、视频配音，大伙儿刷抖音经常听到的 “ 注意看，这个男人叫小帅 ” ，还有剪映素材库里那些 TVB 女声、广西表哥。。。基本都是 TTS 干的。

像这次三只羊录音门牵扯到的 Reecho 睿声，也是一个 TTS 模型的生成网站。咱们其实也在他们网站上，克隆过差评君的声优蛋蛋的声音，大伙儿可以听听看到底像不像。

三只羊“财色录音”是假的，但背后技术是真的恐怖

上来先用《意大利面拌 42 号混凝土》的 “ 名篇节选 ” 整一波，你别说，你还真别说。音色的复刻程度能有个 80%-90% ，而且说话的语气也贼像，不仔细听还以为在做什么正经科普。

我们本来还想借着 AI 差评君给大伙儿送一波福利，但没想到这个 AI 小小翻车了一下， 10 台 iPhone 16 说成了 “ 一零台 iPhone sixteen” 。。。穿帮的实在是太明显了，这福利想送都送不出去呀，可惜可惜。

借 AI 的口，你甚至还能听到差评君管广大差友们借钱。就连国庆节自愿加班 7 天，还不要加班费这种话，从这位 “AI 差评君 ” 的嘴里说出来，你也能听出心甘情愿的味道。

除此之外，人家那个声音市场里还可以自己选训练好的声音 AI ，不仅有我们的好朋友影视飓风 Tim ，甚至还有主播电棍，坤哥和派蒙，就连五星评论家麦克阿瑟也能拿来用。

三只羊“财色录音”是假的，但背后技术是真的恐怖

有一说一，这种程度的克隆已经相当逼真了，所以现在回头看三只羊录音门，好像 AI 参与的可信度又高了一点。而有些朋友可能还觉得，那这个 AI 怎么就能把那种醉意、含糊不清的话都模拟出来呢？

这就得说到 SVC&RVC 了。这里面 SVC （ Singing Voice Conversion ）是用来唱歌的，而 RVC （ Retrieval-based-Voice-Conversion ）的场景多用在直播，这俩都是实时把语音转换成 AI 训练的音色，俗称变声器。

由于输入的是音频，所以它就能把一个人的声音转化的更真实，甚至连语气、声调这些东西都可以转化得很自然。如果是歌声转换，甚至还能模仿音色和唱腔。

像 GitHub 上有个叫 So-Vits-SVC 的开源项目，就一手打造了AI 孙燕姿、唱《泪桥》比原唱伍佰还好听的陶喆。

三只羊“财色录音”是假的，但背后技术是真的恐怖

类似的开源项目还有很多，而且都很好上手。举个例子， b 站的大佬 “ 花儿不哭 ” 今年就上线了一个开源模型 GPT-SoVITs ，下载好直接拿语音喂就行了。

你要懒的自己训练，那还可以在魔搭社区用 “xz 乔希 ” 的项目直接开玩；甚至剪映和必剪这些剪辑软件里都已经用上了自家的 AI 语音，除了那些营销号语音你也可以生成自己的。

乃至于随便找个工具集合网站一搜，多得是可以直接上手用的产品。

三只羊“财色录音”是假的，但背后技术是真的恐怖

我们之前用 “ 花儿不哭 ” 开源的 RVC 实时变声算法，也做过一个差评君变声器。

三只羊“财色录音”是假的，但背后技术是真的恐怖

甚至还专门做了一个非常差评的初始界面。

三只羊“财色录音”是假的，但背后技术是真的恐怖

至于效果大伙儿自个儿品吧，我打包票，这绝对不是隔壁差评君的声优蛋蛋录的。

而且当时我们还专门给变声器做了个硬件外挂，现在还搁办公室里呢。

三只羊“财色录音”是假的，但背后技术是真的恐怖

人在这边对着麦说话，音响那边实时就能把声音变成蛋蛋的。

看起来挺牛逼是吧，不过这玩意也不是突然就这么先进了。

主要语音生成这一块确实低调，你就说这几年这些 AI 的宣传，一个个都好像是奔着炸裂全宇宙去的。三天两头画大饼，谁还惦记语音生成是怎么个情况。

关注的人少，再加上技术积累也多，那可不就是闷声发大财嘛。只不过现在突然出圈了，大家才感觉到惊奇。

说到底还是 AI 时代这些东西的门槛都降低了，你想 cos 哪个人的声线都相当方便。

三只羊“财色录音”是假的，但背后技术是真的恐怖

不过实话，技术进步是一回事儿，但就事论事地说，用这玩意儿来违法犯罪的案例，并不在少数。

也不是咱制造啥恐慌，新华网去年九月就报道过了相关的诈骗手段，你想想家里年纪大的老人，要是接到跟你说话声音一模一样的诈骗电话，说你遇到了危险，会不会把棺材本都给骗子骗走？

三只羊“财色录音”是假的，但背后技术是真的恐怖

不止国内，这事在国外照样有，就连美国知名密码管理工具公司 LastPass 的 CEO ，都被伪造声音拿去诈骗了。

三只羊“财色录音”是假的，但背后技术是真的恐怖

尽管现在已经有不少机构在琢磨怎么处理安全问题，探索怎么识别伪造语音等证据，比如有研究表明，目前可以通过算法声纹认证和语音取证等办法，对 AI 合成语音进行鉴别。

但这些更多还是在找 AI 语音上的 bug 来鉴定的，就好像数手指和穿模来鉴定 AI 图片一样，只要模型一升级，这些办法可能就也没辙了。

三只羊“财色录音”是假的，但背后技术是真的恐怖

不过差评君觉得，要从根本上解决问题，就还得从生成式模型本身出发。

给 AI 生成的图片、音视频也打上类似水印的标记，同时设备和软件也能够检索到这些标签，提醒大家这些内容并非真实。

像是谷歌就已经开始研究在 AI 生成的音频声谱上，添加能被视觉化的特定标记，这样既不会影响用户听感也方便识别。

三只羊“财色录音”是假的，但背后技术是真的恐怖

总的来说，在生成式 AI 的影响下，以后眼见不一定为实，耳听也可能为虚。归根结底技术在发展的同时，防范技术滥用的对策也必须做好。

别光想着说 “ 技术无罪 ” ，上个这么喊的人已经蹲了好多年，现在都出来了。

不过对三只羊来说，虽然始作俑者已经被抓，但这人靠 AI 推在他们身上这把劲，估计影响还会持续挺久，至于后续怎么发展，我们还是再等等看吧。

图片、资料来源：

安全内参：生成式伪造语音安全问题与解决方案

腾讯云：CNN卷积神经网络原理详解

PassingAI：卷积神经网络在音频处理中的应用有哪些？

云技术和洞察：AIGC音频处理

魔搭社区：so-vits-svc

Reecho睿声、新华网，微博、bilibili、部分图源网络

文章来源“差评X.PIN”，作者“西西 & 纳西”

我用豆包，生成了AI版《红楼梦》MV

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

三只羊“财色录音”是假的，但背后技术是真的恐怖

图片、资料来源：

我用豆包，生成了AI版《红楼梦》MV

全球首款脑机接口的 AI 耳机登场，这家公司想用意识操控一切

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

三只羊“财色录音”是假的，但背后技术是真的恐怖

图片、资料来源：

我用豆包，生成了AI版《红楼梦》MV

全球首款脑机接口的 AI 耳机登场，这家公司想用意识操控一切

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿