语音智能体概述

语音智能体使用 OpenAI 语音到语音模型提供实时语音聊天。这些模型支持流式传输音频、文本和工具调用,适用于语音/电话客服支持、移动应用体验和语音聊天等场景。
Voice Agents SDK 为 OpenAI Realtime API 提供 TypeScript 客户端。
快速开始 使用 OpenAI Agents SDK 在几分钟内构建您的第一个实时语音助手。
- 通过 WebSocket 或 WebRTC 连接
- 可用于浏览器和后端连接
- 音频与打断处理
- 通过交接实现多智能体编排
- 工具定义与调用
- 自定义护栏以监控模型输出
- 流式事件的回调
- 文本与语音智能体共用同一套组件
通过使用语音到语音模型,我们可以利用模型实时处理音频的能力,无需将音频转写为文本,也无需在模型生成后再将文本转换回音频。
