クイックスタート
プロジェクトのセットアップと認証情報
Section titled “プロジェクトのセットアップと認証情報”-
プロジェクトの作成
このクイックスタートでは、ブラウザーで使用できる音声エージェントを作成します。新しいプロジェクトを scaffold したい場合は、
Next.jsまたはViteから始められます。Terminal window npm create vite@latest my-project -- --template vanilla-ts -
推奨パッケージのインストール (Zod v4 が必要)
Terminal window npm install @openai/agents zod -
クライアント用エフェメラルトークンの生成
このアプリケーションはユーザーのブラウザーで実行されるため、Realtime API を通じてモデルに接続する安全な方法が必要です。推奨フローは、公式の WebRTC を使った Realtime API ガイドと同じです。バックエンドが短命なエフェメラルクライアントトークンを作成し、ブラウザーがそのトークンを使って WebRTC 接続を確立します。テスト目的では、
curlと通常の OpenAI API キーを使ってトークンを生成することもできます。Terminal window export OPENAI_API_KEY="sk-proj-...(your own key here)"curl -X POST https://api.openai.com/v1/realtime/client_secrets \-H "Authorization: Bearer $OPENAI_API_KEY" \-H "Content-Type: application/json" \-d '{"session": {"type": "realtime","model": "gpt-realtime-2"}}'レスポンスには、
ek_プレフィックスで始まるトップレベルのvalueフィールドと、有効なsessionオブジェクトが含まれます。WebRTC 接続を確立する際は、valueをクライアントシークレットとして使用してください。このトークンは短命なので、バックエンドは必要に応じて新しいものを発行する必要があります。ブラウザーセッションでauthorizationまたはカスタムheadersを持つ Hosted MCP ツールが必要な場合は、それらの認証情報をブラウザーコードに公開するのではなく、POST /v1/realtime/client_secretsに送信するサーバー側のsessionペイロードに、その Hosted MCP 設定を含めてください。
音声エージェントの作成と接続
Section titled “音声エージェントの作成と接続”-
最初の Agent の作成
新しい
RealtimeAgentの作成は、通常のAgentの作成と非常によく似ています。import { RealtimeAgent } from '@openai/agents/realtime';const agent = new RealtimeAgent({name: 'Assistant',instructions: 'You are a helpful assistant.',}); -
セッションの作成
通常のエージェントとは異なり、音声エージェントは
RealtimeSession内で継続的に実行され、時間の経過に伴う会話とモデルへの接続を処理します。このセッションは、後で設定する音声処理、割り込み、より広い会話ライフサイクルも管理します。import { RealtimeSession } from '@openai/agents/realtime';const session = new RealtimeSession(agent, {model: 'gpt-realtime-2',});RealtimeSessionコンストラクターは、最初の引数としてagentを受け取ります。このエージェントが、ユーザーが最初に対話する相手になります。 -
セッションへの接続
セッションに接続するには、先ほど生成したクライアント用エフェメラルトークンを渡す必要があります。
await session.connect({ apiKey: 'ek_...(put your own key here)' });ブラウザーでは、これにより WebRTC を使って Realtime API に接続し、マイク入力と音声再生が自動的に設定されます。そのデフォルトの WebRTC パスでは、データチャネルが開くとすぐに SDK が初期セッション設定を送信し、
connect()が解決される前に対応するsession.updatedの確認応答を待とうとします。確認応答が届かない場合に備えて、タイムアウトのフォールバックもあります。Node.js などのサーバーランタイムでRealtimeSessionを実行する場合、SDK は代わりに自動的に WebSocket にフォールバックします。WebSocket パスでは、ソケットが開き、初期設定が送信された後にconnect()が解決されるため、session.updatedは少し遅れて届く場合があります。トランスポートの選択について詳しくは、リアルタイムトランスポートガイドをご覧ください。
アプリの実行とテスト
Section titled “アプリの実行とテスト”-
全体のまとめ
import { RealtimeAgent, RealtimeSession } from '@openai/agents/realtime';export async function setupCounter(element: HTMLButtonElement) {// ....// for quickly start, you can append the following code to the auto-generated TS codeconst agent = new RealtimeAgent({name: 'Assistant',instructions: 'You are a helpful assistant.',});const session = new RealtimeSession(agent);// Automatically connects your microphone and audio output in the browser via WebRTC.try {await session.connect({// To get this ephemeral key string, you can run the following command or implement the equivalent on the server side:// curl -s -X POST https://api.openai.com/v1/realtime/client_secrets -H "Authorization: Bearer $OPENAI_API_KEY" -H "Content-Type: application/json" -d '{"session": {"type": "realtime", "model": "gpt-realtime-2"}}' | jq .valueapiKey: 'ek_...(put your own key here)',});console.log('You are connected!');} catch (e) {console.error(e);}} -
アプリの起動と会話の開始
Web サーバーを起動し、新しい Realtime Agent コードを含むページを開きます。マイクの権限リクエストが表示されるはずです。アクセスを許可すると、エージェントと会話を始められます。
Terminal window npm run dev
次のステップ
Section titled “次のステップ”ここから、独自の音声エージェントの設計と構築を始められます。
- ツール、ハンドオフ、ガードレールを追加します。
- ターン検出と音声アクティビティ検出、割り込み、手動のレスポンス制御が会話ループにどのように影響するかを学びます。
- テキスト入力、画像入力、セッション履歴管理を追加します。
- デプロイに適したトランスポートを選択します: WebRTC、WebSocket、またはカスタムトランスポート。