语音智能体概述

语音智能体使用 OpenAI 的语音到语音模型,提供实时语音聊天。这些模型支持音频、文本与工具调用的流式传输,非常适合用于语音/电话客服、移动应用体验与语音聊天等场景。
Voice Agents SDK 为 OpenAI Realtime API 提供 TypeScript 客户端。
快速开始 几分钟内使用 OpenAI Agents SDK 构建您的第一个实时语音助手。
- 通过 WebSocket 或 WebRTC 连接
- 既可在浏览器端使用,也可用于后端连接
- 音频与打断处理
- 通过交接实现多智能体编排
- 工具定义与调用
- 自定义护栏以监控模型输出
- 流式事件回调
- 复用相同组件于文本与语音智能体
浏览语音指南
Section titled “浏览语音指南”为什么选择语音到语音
Section titled “为什么选择语音到语音”通过使用语音到语音模型,我们可以在无需先转写为文本并在模型响应后再转换回音频的情况下,直接利用模型对音频进行实时处理的能力。
