产品综合自 2 个来源

OpenAI为何重写底层通信协议

要点

• OpenAI选择重建而非修补WebRTC协议栈
• 500毫秒以下延迟需要定制语音检测和抖动缓冲
• 标准WebRTC将AI音频误判为回声导致降质
• 12个区域的基础设施确保全球延迟一致
• 最终实现了打断、重叠、中途改变话题等自然对话模式

参考来源 (2)

[1] OpenAI详解低延迟语音AI的WebRTC重构 — OpenAI Blog ↗
[2] OpenAI详解低延迟语音AI大规模部署 — Hacker News AI ↗

人类对话的自然感要求响应延迟低于500毫秒。这个阈值不是凭空设定的——它是人类感知对话延迟的极限。大多数"实时"AI产品根本无法做到，延迟通常在1到3秒之间。OpenAI的高级语音模式做到了。但实现这一点需要放弃实时音频的标准工具包：WebRTC。

WebRTC是用于音频和视频通话的浏览器技术。它经过验证、久经考验，但对AI语音来说却存在严重问题。该协议假设通话双方都是人类——管理"谁先说话"的算法是为人类对话模式设计的，而不是为大语言模型的精确、可预测行为设计的。当AI开始说话时，标准WebRTC管道就会卡死：它将AI音频误判为回声，应用激进的降噪处理导致响应失真，通话质量变得不稳定。大多数开发者会接受这些限制并打补丁修补。OpenAI选择了不同的做法。

该公司从头重建了WebRTC协议栈。不是修改——是重建。这意味着要定制语音活动检测以判断用户何时说完话，定制服务器端音频处理以识别自身生成的音频，以及定制抖动缓冲以在不影响质量的前提下维持500毫秒以下的延迟。这一结果需要在12个全球区域进行基础设施投资、专有网络穿透和实时协议优化——这是WebRTC开源基础从未考虑过的。

收获是一个不像语音助手那样的语音助手。自然的说话模式都能工作：你可以打断、在回应时插话、改变主意。系统能无缝处理所有这些，因为它从一开始就是为人类对话设计的，而不是在为人与人通话构建的协议上修修补补。

这是其他AI公司迟早要做的选择。是修补WebRTC的局限性然后发货，还是投入让语音AI真正自然所需的工程复杂性。OpenAI选择了后者。用户是否会注意到这种差异还有待观察，但真正对话式AI的技术基础现在已经存在了。