コンテンツにスキップ

音声エージェントの概要

Realtime Agents

Voice Agents は OpenAI の speech-to-speech モデルを使用して、リアルタイムの音声チャットを提供します。これらのモデルは音声、テキスト、ツール呼び出しの ストリーミング をサポートし、音声/電話のカスタマーサポート、モバイルアプリ体験、音声チャットのような用途に最適です。

Voice Agents SDK は OpenAI Realtime API のための TypeScript クライアントを提供します。

  • WebSocket または WebRTC で接続
  • ブラウザとバックエンド接続の両方で利用可能
  • 音声と割り込みのハンドリング
  • ハンドオフ によるマルチエージェントのオーケストレーション
  • ツール定義と呼び出し
  • モデル出力を監視するカスタム ガードレール
  • ストリーミング されたイベントのコールバック
  • テキストエージェントと音声エージェントの両方で同じコンポーネントを再利用

speech-to-speech モデルを使用することで、モデルが動作した後にテキストを文字起こしして再度音声に変換する必要がなく、モデルのリアルタイム音声処理能力を活用できます。

Speech-to-speech model