音声エージェントの概要
音声エージェントは OpenAI の speech-to-speech モデルを利用して、リアルタイムの音声チャットを提供します。これらのモデルは、ストリーミング音声・テキスト・ツール呼び出しをサポートしており、音声/電話でのカスタマーサポート、モバイルアプリ体験、音声チャットなどの用途に最適です。
Voice Agents SDK は、OpenAI Realtime API 向けの TypeScript クライアントを提供します。
音声エージェント クイックスタート OpenAI Agents SDK を使用して、リアルタイム音声アシスタントをほんの数分で構築できます。
- WebSocket または WebRTC で接続
- ブラウザでもバックエンド接続でも利用可能
- 音声および割り込みのハンドリング
- ハンドオフによるマルチエージェントのオーケストレーション
- ツールの定義と呼び出し
- モデル出力を監視するカスタムガードレール
- ストリーミングイベント用のコールバック
- テキストエージェントと音声エージェントで同じコンポーネントを再利用
speech-to-speech モデルを使用すると、テキストへの書き起こしや音声への再変換を行うことなく、モデルのリアルタイム処理能力を活用できます。