产品 综合自 2 个来源

OpenAI为何重写底层通信协议

要点

  • OpenAI选择重建而非修补WebRTC协议栈
  • 500毫秒以下延迟需要定制语音检测和抖动缓冲
  • 标准WebRTC将AI音频误判为回声导致降质
  • 12个区域的基础设施确保全球延迟一致
  • 最终实现了打断、重叠、中途改变话题等自然对话模式
参考来源 (2)
  1. [1] OpenAI详解低延迟语音AI的WebRTC重构 — OpenAI Blog
  2. [2] OpenAI详解低延迟语音AI大规模部署 — Hacker News AI

人类对话的自然感要求响应延迟低于500毫秒。这个阈值不是凭空设定的——它是人类感知对话延迟的极限。大多数"实时"AI产品根本无法做到,延迟通常在1到3秒之间。OpenAI的高级语音模式做到了。但实现这一点需要放弃实时音频的标准工具包:WebRTC。

WebRTC是用于音频和视频通话的浏览器技术。它经过验证、久经考验,但对AI语音来说却存在严重问题。该协议假设通话双方都是人类——管理"谁先说话"的算法是为人类对话模式设计的,而不是为大语言模型的精确、可预测行为设计的。当AI开始说话时,标准WebRTC管道就会卡死:它将AI音频误判为回声,应用激进的降噪处理导致响应失真,通话质量变得不稳定。大多数开发者会接受这些限制并打补丁修补。OpenAI选择了不同的做法。

该公司从头重建了WebRTC协议栈。不是修改——是重建。这意味着要定制语音活动检测以判断用户何时说完话,定制服务器端音频处理以识别自身生成的音频,以及定制抖动缓冲以在不影响质量的前提下维持500毫秒以下的延迟。这一结果需要在12个全球区域进行基础设施投资、专有网络穿透和实时协议优化——这是WebRTC开源基础从未考虑过的。

收获是一个不像语音助手那样的语音助手。自然的说话模式都能工作:你可以打断、在回应时插话、改变主意。系统能无缝处理所有这些,因为它从一开始就是为人类对话设计的,而不是在为人与人通话构建的协议上修修补补。

这是其他AI公司迟早要做的选择。是修补WebRTC的局限性然后发货,还是投入让语音AI真正自然所需的工程复杂性。OpenAI选择了后者。用户是否会注意到这种差异还有待观察,但真正对话式AI的技术基础现在已经存在了。

0:00