コンテンツにスキップ

音声エージェントの概要

リアルタイムエージェント

音声エージェントを使うと、OpenAI の speech-to-speech モデル上に低レイテンシの音声インターフェイスを構築できます。SDK は Realtime API の考え方をそのまま保ちながら、元のイベントフローを RealtimeAgentRealtimeSession、トランスポートヘルパーでラップし、ツール、ガードレール、ハンドオフ、セッション履歴を扱いやすくします。

内部では、公式の WebRTC を用いた Realtime APIRealtime 会話音声活動検出 ガイドで説明されている同じ Realtime のコンセプトが引き続き適用されます。Voice Agents SDK は、その API の上に TypeScript ファーストのレイヤーを追加するため、トランスポートやイベント処理をゼロから作り直すのではなく、プロダクトロジックに集中できます。

  • ブラウザファーストの WebRTC セットアップと一時的なクライアントトークン
  • サーバー側の WebSocket および SIP トランスポートオプション
  • 自動的な割り込み処理とローカルの会話履歴更新
  • リアルタイムハンドオフによるマルチエージェントオーケストレーション
  • 関数ツール、ホスト型 MCP ツール、承認、委任パターン
  • ライブ音声インタラクション向けの出力ガードレールとトレーシング対応
したいこと参照先
WebRTC と一時的なトークンでブラウザクライアントを安全に接続するクイックスタート
セッションライフサイクル、VAD、割り込み、画像入力、ツール、履歴を理解する音声エージェントの構築
WebRTC、WebSocket、SIP、カスタムトランスポートのどれを使うか判断するリアルタイムトランスポート
Twilio で電話またはテレフォニー体験を実行するTwilio 上の Realtime Agent
Cloudflare Workers またはその他の workerd ランタイムから接続するCloudflare 上の Realtime Agent

Speech-to-speech モデルはユーザーの音声を直接処理するため、ターンごとに個別の音声認識、テキスト推論、音声合成のチェーンを構築する必要がありません。これによりレイテンシを抑えられ、リアルタイムアプリケーションでの割り込み、テキストと音声が混在する入力、ツール呼び出しがより自然に感じられます。

Speech-to-speech モデル