コンテンツにスキップ

音声エージェントの概要

Realtime Agents

音声エージェントは、OpenAI の音声 to 音声モデルを利用してリアルタイムの音声チャットを提供します。これらのモデルはストリーミング音声・テキスト・ツール呼び出しをサポートしており、音声/電話のカスタマーサポート、モバイルアプリ体験、音声チャットなどの用途に最適です。

Voice Agents SDK は、OpenAI Realtime API 向けの TypeScript クライアントを提供します。

  • WebSocket または WebRTC 経由で接続
  • ブラウザでもバックエンド接続でも利用可能
  • 音声と割り込みのハンドリング
  • ハンドオフによるマルチエージェントオーケストレーション
  • ツールの定義と呼び出し
  • モデル出力を監視するカスタムガードレール
  • ストリーミングイベント用のコールバック
  • テキストエージェントと音声エージェントで同じコンポーネントを再利用

音声 to 音声モデルを使用することで、モデルが音声をリアルタイムに処理できるため、テキストへ文字起こししてから再び音声に変換し直す必要がありません。

音声 to 音声モデル