コンテンツにスキップ

音声エージェントの概要

Realtime Agents

音声エージェントは OpenAI の speech-to-speech モデルを使用して、リアルタイムの音声チャットを提供します。これらのモデルは音声、テキスト、ツール呼び出しのストリーミングに対応しており、音声/電話でのカスタマーサポート、モバイルアプリの体験、音声チャットなどの用途に最適です。

Voice Agents SDK は OpenAI Realtime API 用の TypeScript クライアントを提供します。

  • WebSocket または WebRTC で接続
  • ブラウザでもバックエンド接続でも利用可能
  • 音声と割り込みのハンドリング
  • ハンドオフによるマルチエージェントのオーケストレーション
  • ツール定義と呼び出し
  • モデル出力を監視するカスタムガードレール
  • ストリーミングイベント用コールバック
  • テキストと音声の両方のエージェントで同じコンポーネントを再利用

speech-to-speech モデルを使用することで、モデルが動作した後に文字起こしやテキストから音声への再変換を行う必要なく、モデルの音声処理能力をリアルタイムに活用できます。

Speech-to-speech モデル