豆包版《Her》升级上新！随时打断，交流自然，还是开箱即用的那种

2024-08-22 阅读 38 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

自然流畅的AI实时语音应用，一站式搞定

搭载火山方舟大模型服务平台，通过火山引擎RTC实现语音数据的高效采集、处理和传输，并深度整合豆包·语音识别模型和豆包·语音合成模型，简化语音到文本和文本到语音的转换过程，火山引擎对话式AI实时交互解决方案，提供优秀的智能对话和自然语言处理能力，帮助应用快速实现用户和云端大模型的实时语音通话。

豆包·语音识别模型：更高的准确率及灵敏度，更低的语音识别延迟，支持多语种的正确识别。
豆包·语音合成模型：解锁「豆包」同款音色，提供自然生动的语音合成能力，善于表达多种情绪，演绎多种场景。
火山方舟：提供模型精调、推理、评测等全方位功能与服务，提供丰富的插件生态和AI原生应用开发服务，全方位保障企业级AI应用落地。

豆包版《Her》升级上新！随时打断，交流自然，还是开箱即用的那种

△对话式AI实时交互服务方案架构

开箱即用快速搭建，只需调用标准的OpenAPI接口即可配置所需的语音识别（ASR）、大语言模型（LLM）、语音合成（TTS）类型和参数。而火山引擎AIGC RTC-Server负责边缘用户接入、云端资源调度、文本与语音转换处理以及数据订阅传输等环节。整体简化开发流程，让企业应用更专注在对大模型核心能力的训练及调试，加速AI实时语音场景创新。

随时打断，交流自然

要让与AI的交流像和朋友一样自然，随时打断甚至直接插话，关键在于：当用户和AI同时说话时，如何解决互相干扰的音频“双讲”现象。

火山引擎RTC基于成熟的音频3A处理技术，针对“双讲”通过传统回声消除算法和深度学习算法的结合，不仅有效去除回声，还能避免用户语音被过度处理，确保云端语音识别（ASR）能准确捕捉和识别用户的语音信息。

此外，火山引擎RTC通过简化算法提高处理速度，避免因算法复杂性带来的额外延时。

豆包版《Her》升级上新！随时打断，交流自然，还是开箱即用的那种

实时秒回，全球畅聊

火山引擎RTC依托于WebRTC传输网络（WTN），优选全球海量优质节点，实现全球用户智能接入和音视频数据超低延时传输，在复杂的网络环境下具有强大的抗弱网能力，即使在高达80%的数据包丢失率下，也能确保音频传输的稳定和质量。

同时，火山引擎RTC结合云端语音识别流式处理，优化链路延迟，端到端响应延时可低至1秒。此外，火山引擎实时信令RTS可提供稳定可靠、低延时、高并发的信令收发能力，可对文字信令高效传输。

不受限于AI服务部署区域，用户无论身处何地，是语音交流还是文字对话，都可以享受极低延迟、流畅的AI交互体验。

产品融合，高效架构

在方案中，客户端提供音频帧级别的语音活动性检测（VAD），可以精准检测出音频信号中何时有人正在说话，何时是静默状态。帮助整体语音系统更有效地处理语音输入，更准确地识别和理解用户的指令或话语，减少误识别。同时，避免对无意义的背景声进行处理，从而节省计算资源，提高系统的整体效率。

当前人工智能领域创新和突破正以前所未有的速度发生，几乎每周都有新的进展。AIGC交互形态和规模也在快速发展中，如从文字到语音再到视频等多模态，从1对1到多人多Agent互动。火山引擎对话式AI实时交互服务在支持实时语音基础上，也在探索拓展多模态视频对话和多人群聊等场景，帮助开发者能够快速迭代和创新，不断推出新的应用场景和玩法。

灵活、多样化的接入方案

对于追求快速部署AI实时语音功能的企业来说，火山引擎提供的一站式解决方案，让企业能够专注于打造核心功能和创新，而不必深陷底层技术的细节。此外，火山引擎也提供多样化的接入方案，以满足不同企业在开发应用时的具体需求。以下是另外两种接入方案：

自集成方案：企业可以利用火山引擎RTC的音视频采集处理能力、云端媒体服务和音视频数据传输技术，结合ASR、LLM以及TTS等技术构建一个完整大模型语音处理流程，实现更自主、灵活的架构设计。
WebRTC传输网络（WTN）方案：对于在客户端拥有自主研发音视频技术的企业，火山引擎提供了基于WebRTC标准协议构建的传输网络（WTN）。通过接入WTN，企业能够轻松获得全球范围内的超低延迟、稳定可靠的实时音视频传输服务，提升端到端多模态大模型的响应效率。

通过这些方案，企业可以根据自己的技术栈和业务场景，选择最合适的接入方式，实现高质量的AI实时语音场景。目前，火山引擎提供的AI实时语音能力已在国内TOP级的AI虚拟人物聊天产品中应用落地，为众多用户带来全新的互动体验。

文章来源于“量子位”，作者“允中”

非凡访谈｜AKOOL Founder&CEO：冲破营销行业旧桎梏，打造“AI界的Adobe”

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

豆包版《Her》升级上新！随时打断，交流自然，还是开箱即用的那种

自然流畅的AI实时语音应用，一站式搞定

△对话式AI实时交互服务方案架构

随时打断，交流自然

实时秒回，全球畅聊

产品融合，高效架构

灵活、多样化的接入方案

非凡访谈｜AKOOL Founder&CEO：冲破营销行业旧桎梏，打造“AI界的Adobe”

一文搞懂SFT、RLHF、DPO、IFT

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

豆包版《Her》升级上新！随时打断，交流自然，还是开箱即用的那种

自然流畅的AI实时语音应用，一站式搞定

△对话式AI实时交互服务方案架构

随时打断，交流自然

实时秒回，全球畅聊

产品融合，高效架构

灵活、多样化的接入方案

非凡访谈｜AKOOL Founder&CEO：冲破营销行业旧桎梏，打造“AI界的Adobe”

一文搞懂SFT、RLHF、DPO、IFT

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿