开源语音模型实现0.4秒级流式对话决策

新开源语音模型可连续监听，每0.4秒决定是否说话，支持翻译、转录和聊天。

语音 AI 的交互节奏正在被重新定义。一款名为 Audio Interaction 的全新开源语音模型正式亮相，其核心突破在于实现了真正的流式、持续性对话决策能力。与当前主流的 GPT-4o 或 Qwen3.5-Omni 等模型不同，它不再遵循“录音-处理-响应”的回合制模式，而是像一个始终在倾听的人类一样，不间断地处理传入的音频流。

根据发布在 The Decoder 上的技术报道，该模型每 0.4 秒 就会做出一次关键决策：是开口说话，还是继续保持沉默。这种设计使其能够无缝地在翻译、实时转录和自然聊天等多种任务间切换，无需用户手动指定模式。更引人注目的是，它还能识别并合理处理日常环境中的非语言声音，例如一声咳嗽或背景中的关门声，而不是将其误判为需要回应的语音指令。

从产业位置来看，这一模型直接作用于 模型层，但其设计理念对 应用层 的潜在冲击更为深远。传统的语音助手，无论是手机里的 Siri 还是智能音箱，都高度依赖云端强大的算力进行“先听后想”。Audio Interaction 的流式决策机制，使得更复杂的端侧实时交互成为可能。它意味着未来的 AI 硬件或应用，可以更少地依赖网络往返带来的延迟，在本地就能实现更自然、更像人的对话体验。这对于正在探索 AI 眼镜、耳机等可穿戴设备的厂商而言，提供了一个极具吸引力的技术基座。

该模型以极其开放的姿态进入生态。其模型权重、完整代码和详细的下载使用指南，已全部托管在 GitHub 上，并采用了商业友好的 Apache 2.0 开源协议。这为开发者和企业进行二次开发、定制化微调乃至商业化部署扫清了法律障碍。唯一暂时保留的是训练数据，项目方表示将在后续公布。这种“先放模型和数据，再公开训练集”的策略，在开源社区并不罕见，它既能迅速吸引开发者试用和贡献，也为团队后续发布技术论文或进行数据合规审查留出了时间窗口。

站在 AI 产业投资者的角度，这一事件虽非来自某个科技巨头，却精准地指向了行业竞争的下一个焦点：全双工语音交互。当大语言模型的文本能力逐渐趋同，更自然、更低延迟、更能理解语境的语音交互，正成为模型能力差异化和应用落地体验的关键战场。Audio Interaction 的出现，证明了在开源社区，通过精巧的架构设计，而非单纯依赖更大的参数规模，同样能在特定能力上取得显著突破。这可能会加速推动语音交互从“工具属性”向“伙伴属性”的演进，并催生对低功耗、高能效推理芯片的新需求，从而向上游的 芯片层 和 基础设施层 传导出新的算力需求形态。

开源语音模型实现0.4秒级流式对话决策

延伸阅读

相关每日新闻