コンテンツにスキップ

音声エージェントの概要

Realtime Agents

音声エージェントは OpenAI の speech-to-speech モデルを利用して、リアルタイムの音声チャットを提供します。これらのモデルは、ストリーミング音声・テキスト・ツール呼び出しをサポートしており、音声/電話でのカスタマーサポート、モバイルアプリ体験、音声チャットなどの用途に最適です。

Voice Agents SDK は、OpenAI Realtime API 向けの TypeScript クライアントを提供します。

  • WebSocket または WebRTC で接続
  • ブラウザでもバックエンド接続でも利用可能
  • 音声および割り込みのハンドリング
  • ハンドオフによるマルチエージェントのオーケストレーション
  • ツールの定義と呼び出し
  • モデル出力を監視するカスタムガードレール
  • ストリーミングイベント用のコールバック
  • テキストエージェントと音声エージェントで同じコンポーネントを再利用

speech-to-speech モデルを使用すると、テキストへの書き起こしや音声への再変換を行うことなく、モデルのリアルタイム処理能力を活用できます。

スピーチツースピーチモデル