音声エージェントの概要

Voice Agents を使うと、 OpenAI の speech-to-speech モデル上で低レイテンシな音声インターフェースを構築できます。 SDK は Realtime API のメンタルモデルを維持しつつ、生のイベントフローを RealtimeAgent 、 RealtimeSession 、およびトランスポートヘルパーでラップすることで、ツール、ガードレール、ハンドオフ、セッション履歴をより扱いやすくします。
内部では、公式ガイド Realtime API with WebRTC、 Realtime conversations、 voice activity detection の Realtime の同じ概念がそのまま適用されます。 Voice Agents SDK はこの API の上に TypeScript ファーストのレイヤーを追加するため、トランスポートやイベント処理をゼロから作り直すのではなく、プロダクトロジックに集中できます。
クイックスタート OpenAI Agents SDK を使って、ほんの数分ではじめてのエージェントをつくることができます。
音声エージェントの構築 SDK におけるセッションライフサイクル、 VAD、割り込み、マルチモーダル入力、ツール、履歴の仕組みを学びます。
リアルタイムトランスポート WebRTC、 WebSocket、 SIP、またはカスタムトランスポートから選び、どのタイミングで元のイベントに降りるべきかを把握します。
SDK の追加要素
Section titled “SDK の追加要素”- エフェメラルクライアントトークンを使った、ブラウザファーストの WebRTC セットアップ
- サーバーサイドの WebSocket と SIP のトランスポートオプション
- 自動の割り込み処理とローカル会話履歴の更新
- リアルタイムハンドオフによるマルチエージェントオーケストレーション
- 関数ツール、 hosted MCP ツール、承認、委譲パターン
- ライブ音声対話向けの出力ガードレールとトレーシング対応
次に読むページ
Section titled “次に読むページ”| 次のことをしたい場合 | 参照先 |
|---|---|
| WebRTC とエフェメラルトークンでブラウザクライアントを安全に接続する | クイックスタート |
| セッションライフサイクル、 VAD、割り込み、画像入力、ツール、履歴を理解する | 音声エージェントの構築 |
| WebRTC、 WebSocket、 SIP、カスタムトランスポートのどれを使うか決める | リアルタイムトランスポート |
| Twilio で電話体験やテレフォニー体験を実行する | Twilio 上の Realtime Agent |
| Cloudflare Workers やその他の workerd ランタイムから接続する | Cloudflare 上の Realtime Agent |
speech-to-speech を使う理由
Section titled “speech-to-speech を使う理由”speech-to-speech モデルはユーザー音声を直接処理するため、各ターンで speech-to-text、テキスト推論、 text-to-speech の個別チェーンを構築する必要がありません。これによりレイテンシを抑えられ、リアルタイムアプリケーションでの割り込み、テキストと音声の混在入力、ツール呼び出しが、はるかに自然になります。
