跳转到内容

语音智能体概述

实时智能体

语音智能体让您可以基于 OpenAI speech-to-speech 模型构建低延迟的语音交互界面。SDK 保留了 Realtime API 的心智模型,但通过 RealtimeAgentRealtimeSession 和传输辅助工具封装了原始事件流,使工具、护栏、交接和会话历史更易于使用。

在底层,官方指南 Realtime API with WebRTCRealtime conversationsvoice activity detection 中的同一套 Realtime 概念仍然适用。语音智能体 SDK 在该 API 之上增加了 TypeScript 优先的一层,让您可以专注于产品逻辑,而不是从零重建传输与事件处理。

  • 面向浏览器优先的 WebRTC 配置,支持临时客户端令牌。
  • 服务端 WebSocket 与 SIP 传输选项。
  • 自动处理中断并更新本地会话历史。
  • 通过实时交接实现多智能体编排。
  • 函数工具、远程 MCP 服务器工具、审批和委派模式。
  • 为实时语音交互提供输出护栏与追踪支持。
如果您需要……前往
使用 WebRTC 和临时令牌安全连接浏览器客户端快速开始
理解会话生命周期、VAD、中断、图像输入、工具和历史记录构建语音智能体
在 WebRTC、WebSocket、SIP 和自定义传输之间做选择传输机制
在 Twilio 上运行电话或语音通信体验Twilio 上的实时智能体
从 Cloudflare Workers 或其他 workerd 运行时连接Cloudflare 上的实时智能体

speech-to-speech 模型会直接处理用户音频,因此您不必为每一轮都构建独立的语音转文本、文本推理和文本转语音链路。这可以降低延迟,并让中断、文本与语音混合输入以及工具调用在实时应用中显得更加自然。

Speech-to-speech 模型