コンテンツにスキップ

音声エージェントの概要

Realtime Agents

音声エージェントを使うと、 OpenAI の speech-to-speech モデル上に低レイテンシな音声インターフェースを構築できます。 SDK は Realtime API のメンタルモデルをそのまま維持しつつ、 元のイベントフローを RealtimeAgentRealtimeSession 、およびトランスポートヘルパーでラップし、ツール、ガードレール、ハンドオフ、セッション履歴をより扱いやすくします。

内部では、公式ガイドの Realtime API with WebRTCRealtime conversations、および voice activity detection にある同じ Realtime の概念が引き続き適用されます。 Voice Agents SDK はその API の上に TypeScript ファーストのレイヤーを追加するため、トランスポートやイベント処理をゼロから作り直すのではなく、製品ロジックに集中できます。

  • エフェメラルクライアントトークンを使った、ブラウザファーストな WebRTC セットアップ
  • サーバーサイドの WebSocket および SIP トランスポートオプション
  • 自動的な割り込み処理とローカル会話履歴の更新
  • リアルタイムなハンドオフによるマルチエージェントオーケストレーション
  • 関数ツール、 hosted MCP ツール、承認、および委任パターン
  • ライブ音声インタラクション向けの出力ガードレールとトレーシングのサポート
必要なこと参照先
WebRTC とエフェメラルトークンを使ってブラウザクライアントを安全に接続するクイックスタート
セッションライフサイクル、 VAD、割り込み、画像入力、ツール、履歴を理解する音声エージェントの構築
WebRTC、 WebSocket、 SIP、カスタムトランスポートのどれを使うか決めるリアルタイムトランスポート
Twilio 上で電話やテレフォニー体験を実行するTwilio 上の Realtime Agent
Cloudflare Workers やその他の workerd ランタイムから接続するCloudflare 上の Realtime Agent

speech-to-speech モデルはユーザーの音声を直接処理するため、各ターンごとに speech-to-text、テキスト推論、 text-to-speech の個別チェーンを構築する必要がありません。 これによりレイテンシが抑えられ、リアルタイムアプリケーションにおいて割り込み、テキストと音声が混在する入力、ツール呼び出しがより自然に感じられます。

Speech-to-speech model