音声エージェントの概要

Voice Agents は OpenAI の音声対音声モデルを使用して、リアルタイムのボイスチャットを提供します。これらのモデルは音声、テキスト、ツール呼び出しのストリーミングをサポートし、音声/電話のカスタマーサポート、モバイルアプリの体験、ボイスチャットといった用途に最適です。
Voice Agents SDK は OpenAI Realtime API 用の TypeScript クライアントを提供します。
クイックスタート OpenAI Agents SDK を使って、リアルタイム音声アシスタントを数分で構築できます。
- WebSocket または WebRTC で接続
- ブラウザとバックエンド接続の両方で利用可能
- 音声および割り込みの処理
- ハンドオフによるマルチエージェントのオーケストレーション
- ツールの定義と呼び出し
- モデル出力を監視するカスタムガードレール
- ストリーミングイベント向けのコールバック
- テキストと音声のエージェントの両方で同じコンポーネントを再利用
音声対音声モデルを使用すると、モデルが動作した後にテキストへ文字起こしして再び音声に変換し直す必要がなく、モデルのリアルタイム音声処理能力を活用できます。
