语音智能体概述

语音智能体让您能够基于 OpenAI speech-to-speech 模型构建低延迟的语音交互界面。SDK 保留了 Realtime API 的心智模型,但将原始事件流封装进 RealtimeAgent、RealtimeSession 和传输辅助工具中,使工具、护栏、交接和会话历史更易于使用。
在底层,官方指南 Realtime API with WebRTC、Realtime conversations 和 voice activity detection 中的相同 Realtime 概念仍然适用。Voice Agents SDK 在该 API 之上增加了一个 TypeScript 优先的层,让您可以专注于产品逻辑,而不必从头重建传输和事件处理。
快速开始 几分钟内使用 OpenAI Agents SDK 构建您的第一个实时语音助手。
构建语音智能体 了解 SDK 中的会话生命周期、VAD、中断、多模态输入、工具和历史记录的工作方式。
传输机制 在 WebRTC、WebSocket、SIP 或自定义传输之间做出选择,并了解何时应降级到底层原始事件。
SDK 的增强能力
Section titled “SDK 的增强能力”- 面向浏览器优先的 WebRTC 设置,支持临时客户端令牌。
- 服务端 WebSocket 和 SIP 传输选项。
- 自动处理中断以及本地会话历史更新。
- 通过实时交接实现多智能体编排。
- 函数工具、托管 MCP 工具、审批和委派模式。
- 为实时语音交互提供输出护栏和追踪支持。
后续页面选择
Section titled “后续页面选择”| 如果您需要…… | 前往这里 |
|---|---|
| 使用 WebRTC 和临时令牌安全地连接浏览器客户端 | 快速开始 |
| 了解会话生命周期、VAD、中断、图像输入、工具和历史记录 | 构建语音智能体 |
| 在 WebRTC、WebSocket、SIP 和自定义传输之间做选择 | 传输机制 |
| 在 Twilio 上运行电话或语音通信体验 | Twilio 上的实时智能体 |
| 从 Cloudflare Workers 或其他 workerd 运行时进行连接 | Cloudflare 上的实时智能体 |
选择 speech-to-speech 的原因
Section titled “选择 speech-to-speech 的原因”speech-to-speech 模型会直接处理用户音频,因此您无需为每一轮构建独立的语音转文本、文本推理和文本转语音链路。这可以降低延迟,并让中断、文本与语音混合输入以及工具调用在实时应用中显得自然得多。
