コンテンツにスキップ

音声エージェントの概要

Realtime Agents

Voice Agents を使うと、 OpenAI の speech-to-speech モデル上で低レイテンシな音声インターフェースを構築できます。 SDK は Realtime API のメンタルモデルを維持しつつ、生のイベントフローを RealtimeAgentRealtimeSession 、およびトランスポートヘルパーでラップすることで、ツール、ガードレール、ハンドオフ、セッション履歴をより扱いやすくします。

内部では、公式ガイド Realtime API with WebRTCRealtime conversationsvoice activity detection の Realtime の同じ概念がそのまま適用されます。 Voice Agents SDK はこの API の上に TypeScript ファーストのレイヤーを追加するため、トランスポートやイベント処理をゼロから作り直すのではなく、プロダクトロジックに集中できます。

  • エフェメラルクライアントトークンを使った、ブラウザファーストの WebRTC セットアップ
  • サーバーサイドの WebSocket と SIP のトランスポートオプション
  • 自動の割り込み処理とローカル会話履歴の更新
  • リアルタイムハンドオフによるマルチエージェントオーケストレーション
  • 関数ツール、 hosted MCP ツール、承認、委譲パターン
  • ライブ音声対話向けの出力ガードレールとトレーシング対応
次のことをしたい場合参照先
WebRTC とエフェメラルトークンでブラウザクライアントを安全に接続するクイックスタート
セッションライフサイクル、 VAD、割り込み、画像入力、ツール、履歴を理解する音声エージェントの構築
WebRTC、 WebSocket、 SIP、カスタムトランスポートのどれを使うか決めるリアルタイムトランスポート
Twilio で電話体験やテレフォニー体験を実行するTwilio 上の Realtime Agent
Cloudflare Workers やその他の workerd ランタイムから接続するCloudflare 上の Realtime Agent

speech-to-speech モデルはユーザー音声を直接処理するため、各ターンで speech-to-text、テキスト推論、 text-to-speech の個別チェーンを構築する必要がありません。これによりレイテンシを抑えられ、リアルタイムアプリケーションでの割り込み、テキストと音声の混在入力、ツール呼び出しが、はるかに自然になります。

Speech-to-speech model