跳转到内容

语音智能体概述

实时智能体

语音智能体使用 OpenAI 语音到语音模型提供实时语音聊天。这些模型支持音频、文本和工具调用的流式传输,非常适合语音/电话客服、移动应用体验和语音聊天等场景。

Voice Agents SDK 为 OpenAI Realtime API 提供 TypeScript 客户端。

  • 通过 WebSocket 或 WebRTC 连接
  • 可用于浏览器与后端连接
  • 音频与打断处理
  • 通过交接实现多智能体编排
  • 工具定义与调用
  • 自定义护栏以监控模型输出
  • 针对流式事件的回调
  • 文本与语音智能体复用相同组件

通过使用语音到语音模型,我们可以利用模型对音频的实时处理能力,而无需在模型完成后先转写再将文本转换回音频。

语音到语音模型