音声エージェントの概要

概要

Realtime Agents

Voice Agents を使うと、 OpenAI の speech-to-speech モデル上で低レイテンシな音声インターフェースを構築できます。 SDK は Realtime API のメンタルモデルを維持しつつ、生のイベントフローを RealtimeAgent 、 RealtimeSession 、およびトランスポートヘルパーでラップすることで、ツール、ガードレール、ハンドオフ、セッション履歴をより扱いやすくします。

内部では、公式ガイド Realtime API with WebRTC、 Realtime conversations、 voice activity detection の Realtime の同じ概念がそのまま適用されます。 Voice Agents SDK はこの API の上に TypeScript ファーストのレイヤーを追加するため、トランスポートやイベント処理をゼロから作り直すのではなく、プロダクトロジックに集中できます。

開始

クイックスタート OpenAI Agents SDK を使って、ほんの数分ではじめてのエージェントをつくることができます。

音声エージェントの構築 SDK におけるセッションライフサイクル、 VAD、割り込み、マルチモーダル入力、ツール、履歴の仕組みを学びます。

リアルタイムトランスポート WebRTC、 WebSocket、 SIP、またはカスタムトランスポートから選び、どのタイミングで元のイベントに降りるべきかを把握します。

SDK の追加要素

エフェメラルクライアントトークンを使った、ブラウザファーストの WebRTC セットアップ
サーバーサイドの WebSocket と SIP のトランスポートオプション
自動の割り込み処理とローカル会話履歴の更新
リアルタイムハンドオフによるマルチエージェントオーケストレーション
関数ツール、 hosted MCP ツール、承認、委譲パターン
ライブ音声対話向けの出力ガードレールとトレーシング対応

次に読むページ

次のことをしたい場合	参照先
WebRTC とエフェメラルトークンでブラウザクライアントを安全に接続する	クイックスタート
セッションライフサイクル、 VAD、割り込み、画像入力、ツール、履歴を理解する	音声エージェントの構築
WebRTC、 WebSocket、 SIP、カスタムトランスポートのどれを使うか決める	リアルタイムトランスポート
Twilio で電話体験やテレフォニー体験を実行する	Twilio 上の Realtime Agent
Cloudflare Workers やその他の workerd ランタイムから接続する	Cloudflare 上の Realtime Agent

speech-to-speech を使う理由

speech-to-speech モデルはユーザー音声を直接処理するため、各ターンで speech-to-text、テキスト推論、 text-to-speech の個別チェーンを構築する必要がありません。これによりレイテンシを抑えられ、リアルタイムアプリケーションでの割り込み、テキストと音声の混在入力、ツール呼び出しが、はるかに自然になります。

Speech-to-speech model