コンテンツにスキップ

音声エージェントの概要

Realtime Agents

音声エージェントは OpenAI の音声-音声モデルを使って、リアルタイムの音声チャットを提供します。これらのモデルは音声、テキスト、ツール呼び出しのストリーミングに対応しており、音声/電話でのカスタマーサポート、モバイルアプリ体験、音声チャットなどの用途に最適です。

Voice Agents SDK は、OpenAI Realtime API 向けの TypeScript クライアントを提供します。

  • WebSocket または WebRTC で接続
  • ブラウザとバックエンドの両方で利用可能
  • 音声と割り込みのハンドリング
  • ハンドオフによるマルチエージェントのオーケストレーション
  • ツールの定義と呼び出し
  • モデル出力を監視するカスタムガードレール
  • ストリーミングされたイベントのコールバック
  • テキストと音声のエージェントの両方で同じコンポーネントを再利用

音声-音声モデルを使用することで、モデルが処理した後にテキストへ文字起こしして再び音声へ変換し直す必要がなく、リアルタイムに音声を処理するモデルの能力を活用できます。

音声-音声モデル