コンテンツにスキップ

音声エージェントの概要

リアルタイムエージェント

Voice Agents は OpenAI の音声対音声モデルを使って、リアルタイムの音声チャットを提供します。これらのモデルは音声、テキスト、ツール呼び出しのストリーミングに対応し、音声/電話のカスタマーサポート、モバイルアプリの体験、音声チャットなどの用途に最適です。

Voice Agents SDK は OpenAI Realtime API 向けの TypeScript クライアントを提供します。

  • WebSocket や WebRTC で接続
  • ブラウザとバックエンド接続の両方で利用可能
  • 音声と割り込みのハンドリング
  • ハンドオフによるマルチエージェントのオーケストレーション
  • ツールの定義と呼び出し
  • モデル出力を監視するカスタムガードレール
  • ストリーミングイベントのコールバック
  • 同じコンポーネントをテキストおよび音声のエージェントの両方で再利用

音声対音声モデルを使うことで、モデルが動作した後にテキストを文字起こしして再度音声に変換する必要がなく、モデルの音声処理能力をリアルタイムに活用できます。

音声対音声モデル