コンテンツにスキップ

音声エージェントの概要

リアルタイムエージェント

音声エージェントは、OpenAI の speech-to-speech モデルを使ってリアルタイムの音声チャットを提供します。これらのモデルは音声、テキスト、ツール呼び出しのストリーミングをサポートし、音声/電話のカスタマーサポート、モバイルアプリの体験、音声チャットなどの用途に最適です。

Voice Agents SDK は、OpenAI Realtime API 向けの TypeScript クライアントを提供します。

  • WebSocket または WebRTC 経由で接続
  • ブラウザおよびバックエンド接続の両方で利用可能
  • 音声および割り込みのハンドリング
  • ハンドオフによるマルチエージェントのオーケストレーション
  • ツールの定義と呼び出し
  • モデル出力を監視するためのカスタム ガードレール
  • ストリーミングされたイベントのコールバック
  • テキストと音声のエージェントの両方で同じコンポーネントを再利用

speech-to-speech モデルを使うことで、モデルが動作した後にテキストへ文字起こしして再度音声に変換する必要なく、音声をリアルタイムに処理するモデルの能力を活用できます。

speech-to-speech モデル