人类对话的自然感要求响应延迟低于500毫秒。这个阈值不是凭空设定的——它是人类感知对话延迟的极限。大多数"实时"AI产品根本无法做到,延迟通常在1到3秒之间。OpenAI的高级语音模式做到了。但实现这一点需要放弃实时音频的标准工具包:WebRTC。
WebRTC是用于音频和视频通话的浏览器技术。它经过验证、久经考验,但对AI语音来说却存在严重问题。该协议假设通话双方都是人类——管理"谁先说话"的算法是为人类对话模式设计的,而不是为大语言模型的精确、可预测行为设计的。当AI开始说话时,标准WebRTC管道就会卡死:它将AI音频误判为回声,应用激进的降噪处理导致响应失真,通话质量变得不稳定。大多数开发者会接受这些限制并打补丁修补。OpenAI选择了不同的做法。
该公司从头重建了WebRTC协议栈。不是修改——是重建。这意味着要定制语音活动检测以判断用户何时说完话,定制服务器端音频处理以识别自身生成的音频,以及定制抖动缓冲以在不影响质量的前提下维持500毫秒以下的延迟。这一结果需要在12个全球区域进行基础设施投资、专有网络穿透和实时协议优化——这是WebRTC开源基础从未考虑过的。
收获是一个不像语音助手那样的语音助手。自然的说话模式都能工作:你可以打断、在回应时插话、改变主意。系统能无缝处理所有这些,因为它从一开始就是为人类对话设计的,而不是在为人与人通话构建的协议上修修补补。
这是其他AI公司迟早要做的选择。是修补WebRTC的局限性然后发货,还是投入让语音AI真正自然所需的工程复杂性。OpenAI选择了后者。用户是否会注意到这种差异还有待观察,但真正对话式AI的技术基础现在已经存在了。