コンテンツにスキップ

クイックスタート

プロジェクトのセットアップと認証情報

Section titled “プロジェクトのセットアップと認証情報”
  1. プロジェクトの作成

    このクイックスタートでは、ブラウザーで使える音声エージェントを作成します。新しいプロジェクトのひな形を作成したい場合は、Next.js または Vite から始められます。

    Terminal window
    npm create vite@latest my-project -- --template vanilla-ts
  2. 推奨パッケージのインストール( Zod v4 が必要です)

    Terminal window
    npm install @openai/agents zod
  3. クライアント用エフェメラルトークンの生成

    このアプリケーションはユーザーのブラウザー内で実行されるため、Realtime API を通じて安全にモデルへ接続する方法が必要です。推奨フローは公式の Realtime API with WebRTC ガイドに沿ったもので、バックエンドで有効期間の短いエフェメラルクライアントトークンを作成し、ブラウザーがそのトークンを使って WebRTC 接続を確立します。テスト目的であれば、curl と通常の OpenAI API キーを使ってトークンを生成することもできます。

    Terminal window
    export OPENAI_API_KEY="sk-proj-...(your own key here)"
    curl -X POST https://api.openai.com/v1/realtime/client_secrets \
    -H "Authorization: Bearer $OPENAI_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
    "session": {
    "type": "realtime",
    "model": "gpt-realtime"
    }
    }'

    レスポンスには、ek_ プレフィックスで始まるトップレベルの value フィールドと、有効な session オブジェクトが含まれます。WebRTC 接続を確立するときは、クライアントシークレットとして value を使用してください。このトークンは短命なので、必要に応じてバックエンドで新しいものを発行する必要があります。ブラウザーセッションで authorization やカスタム headers を使う組み込みの MCP ツールが必要な場合は、それらの認証情報をブラウザーコードに公開するのではなく、POST /v1/realtime/client_secrets に送るサーバー側の session ペイロードにその組み込み MCP 設定を含めてください。

音声エージェントの作成と接続

Section titled “音声エージェントの作成と接続”
  1. 最初の Agent の作成

    新しい RealtimeAgent の作成は、通常の Agent の作成と非常によく似ています。

    import { RealtimeAgent } from '@openai/agents/realtime';
    const agent = new RealtimeAgent({
    name: 'Assistant',
    instructions: 'You are a helpful assistant.',
    });
  2. セッションの作成

    通常のエージェントとは異なり、音声エージェントは RealtimeSession 内で継続的に実行され、会話とモデルへの接続を時間を通じて処理します。このセッションは、音声処理、中断、そして後で設定するより広い会話ライフサイクルも管理します。

    import { RealtimeSession } from '@openai/agents/realtime';
    const session = new RealtimeSession(agent, {
    model: 'gpt-realtime-1.5',
    });

    RealtimeSession コンストラクターは、最初の引数に agent を取ります。このエージェントが、ユーザーが最初にやり取りするエージェントになります。

  3. セッションへの接続

    セッションに接続するには、先ほど生成したクライアント用エフェメラルトークンを渡す必要があります。

    await session.connect({ apiKey: 'ek_...(put your own key here)' });

    ブラウザーでは、これにより WebRTC を使って Realtime API に接続され、マイク入力の取得と音声再生が自動的に設定されます。このデフォルトの WebRTC 経路では、SDK はデータチャネルが開くとすぐに初期セッション設定を送信し、connect() が resolve する前に、対応する session.updated 確認応答を待とうとします。確認応答が届かない場合はタイムアウトでフォールバックします。Node.js などのサーバーランタイムで RealtimeSession を実行すると、SDK は代わりに自動的に WebSocket にフォールバックします。WebSocket 経路では、ソケットが開いて初期設定が送信された後に connect() が resolve するため、session.updated は少し遅れて到着する場合があります。トランスポートの選択について詳しくは、リアルタイムトランスポート ガイドを参照してください。

  1. すべてをまとめる

    import { RealtimeAgent, RealtimeSession } from '@openai/agents/realtime';
    export async function setupCounter(element: HTMLButtonElement) {
    // ....
    // for quickly start, you can append the following code to the auto-generated TS code
    const agent = new RealtimeAgent({
    name: 'Assistant',
    instructions: 'You are a helpful assistant.',
    });
    const session = new RealtimeSession(agent);
    // Automatically connects your microphone and audio output in the browser via WebRTC.
    try {
    await session.connect({
    // To get this ephemeral key string, you can run the following command or implement the equivalent on the server side:
    // curl -s -X POST https://api.openai.com/v1/realtime/client_secrets -H "Authorization: Bearer $OPENAI_API_KEY" -H "Content-Type: application/json" -d '{"session": {"type": "realtime", "model": "gpt-realtime"}}' | jq .value
    apiKey: 'ek_...(put your own key here)',
    });
    console.log('You are connected!');
    } catch (e) {
    console.error(e);
    }
    }
  2. アプリの起動と会話の開始

    Web サーバーを起動し、新しい Realtime Agent のコードを含むページを開きます。マイクの使用許可を求めるリクエストが表示されるはずです。アクセスを許可すると、エージェントとの会話を始められます。

    Terminal window
    npm run dev

ここから独自の音声エージェントの設計と構築を始められます。