音声エージェントの概要

概要

リアルタイムエージェント

音声エージェントを使うと、OpenAI の speech-to-speech モデル上に低レイテンシの音声インターフェイスを構築できます。SDK は Realtime API の考え方をそのまま保ちながら、元のイベントフローを RealtimeAgent、RealtimeSession、トランスポートヘルパーでラップし、ツール、ガードレール、ハンドオフ、セッション履歴を扱いやすくします。

内部では、公式の WebRTC を用いた Realtime API、Realtime 会話、音声活動検出ガイドで説明されている同じ Realtime のコンセプトが引き続き適用されます。Voice Agents SDK は、その API の上に TypeScript ファーストのレイヤーを追加するため、トランスポートやイベント処理をゼロから作り直すのではなく、プロダクトロジックに集中できます。

ここから開始

クイックスタート OpenAI Agents SDK を使って、ほんの数分で最初のリアルタイム音声アシスタントを構築します。

音声エージェントの構築 SDK におけるセッションライフサイクル、VAD、割り込み、マルチモーダル入力、ツール、履歴の仕組みを学びます。

リアルタイムトランスポート WebRTC、WebSocket、SIP、カスタムトランスポートから選択し、いつ元のイベントまで下りるべきかを理解します。

SDK による追加要素

ブラウザファーストの WebRTC セットアップと一時的なクライアントトークン
サーバー側の WebSocket および SIP トランスポートオプション
自動的な割り込み処理とローカルの会話履歴更新
リアルタイムハンドオフによるマルチエージェントオーケストレーション
関数ツール、ホスト型 MCP ツール、承認、委任パターン
ライブ音声インタラクション向けの出力ガードレールとトレーシング対応

次のページの選択

したいこと	参照先
WebRTC と一時的なトークンでブラウザクライアントを安全に接続する	クイックスタート
セッションライフサイクル、VAD、割り込み、画像入力、ツール、履歴を理解する	音声エージェントの構築
WebRTC、WebSocket、SIP、カスタムトランスポートのどれを使うか判断する	リアルタイムトランスポート
Twilio で電話またはテレフォニー体験を実行する	Twilio 上の Realtime Agent
Cloudflare Workers またはその他の workerd ランタイムから接続する	Cloudflare 上の Realtime Agent

Speech-to-speech の利点

Speech-to-speech モデルはユーザーの音声を直接処理するため、ターンごとに個別の音声認識、テキスト推論、音声合成のチェーンを構築する必要がありません。これによりレイテンシを抑えられ、リアルタイムアプリケーションでの割り込み、テキストと音声が混在する入力、ツール呼び出しがより自然に感じられます。

Speech-to-speech モデル