コンテンツにスキップ

音声エージェントの概要

Realtime Agents

音声エージェントは OpenAI の speech-to-speech モデルを使用して、リアルタイムの音声チャットを提供します。これらのモデルは音声、テキスト、ツール呼び出しのストリーミングをサポートし、音声/電話によるカスタマーサポート、モバイルアプリ体験、音声チャットなどのアプリケーションに最適です。

Voice Agents SDK は、OpenAI Realtime API 用の TypeScript クライアントを提供します。

  • WebSocket または WebRTC 経由で接続
  • ブラウザとバックエンド接続の両方で利用可能
  • 音声と割り込み処理
  • ハンドオフによるマルチエージェントのオーケストレーション
  • ツールの定義と呼び出し
  • モデル出力を監視するカスタムガードレール
  • ストリーミングイベント用コールバック
  • 同じコンポーネントをテキストエージェントと音声エージェントの両方で再利用

speech-to-speech モデルを使用することで、モデルが行動した後にテキストへ文字起こしして再度音声に変換し直す必要なく、リアルタイムに音声を処理するモデルの能力を活用できます。

音声対音声モデル