パイプラインとワークフロー

VoicePipeline は、エージェント型のワークフローを音声アプリに変換しやすくするクラスです。実行するワークフローを渡すと、パイプラインが入力音声の文字起こし、音声終了の検出、適切なタイミングでのワークフロー呼び出し、そしてワークフロー出力の音声への変換までを処理します。

graph LR
    %% Input
    A["🎤 Audio Input"]

    %% Voice Pipeline
    subgraph Voice_Pipeline [Voice Pipeline]
        direction TB
        B["Transcribe (speech-to-text)"]
        C["Your Code"]:::highlight
        D["Text-to-speech"]
        B --> C --> D
    end

    %% Output
    E["🎧 Audio Output"]

    %% Flow
    A --> Voice_Pipeline
    Voice_Pipeline --> E

    %% Custom styling
    classDef highlight fill:#ffcc66,stroke:#333,stroke-width:1px,font-weight:700;

パイプラインの設定

パイプラインを作成するとき、次の項目を設定できます。

新しい音声が文字起こしされるたびに実行されるコードである workflow
使用する speech-to-text と text-to-speech のモデル
次のような設定を行える config
- モデル名をモデルにマッピングできるモデルプロバイダー
- トレーシング（トレーシングを無効化するか、音声ファイルをアップロードするか、ワークフロー名、トレース ID など）
- プロンプト、言語、使用するデータ型など、TTS と STT モデルの設定

パイプラインの実行

パイプラインは、run() メソッドで実行でき、音声入力を次の 2 つの形式で渡せます。

AudioInput は、完全な音声の書き起こしがあり、その結果だけを生成したい場合に使います。これは、話者が話し終えたタイミングの検出が不要なケース、たとえば事前録音の音声や、ユーザーの発話終了が明確なプッシュ・トゥ・トークアプリで有用です。
StreamedAudioInput は、ユーザーの発話終了の検出が必要な場合に使います。検出された音声チャンクを順次プッシュでき、ボイスパイプラインが「アクティビティ検出 (activity detection)」と呼ばれるプロセスにより、適切なタイミングで自動的にエージェントのワークフローを実行します。

結果

ボイスパイプライン実行の結果は StreamedAudioResult です。これは、発生したイベントをストリーミングで受け取れるオブジェクトです。いくつかの種類の VoiceStreamEvent があり、次を含みます。

音声チャンクを含む VoiceStreamEventAudio
ターンの開始や終了などのライフサイクルイベントを知らせる VoiceStreamEventLifecycle
エラーイベントである VoiceStreamEventError

result = await pipeline.run(input)

async for event in result.stream():
    if event.type == "voice_stream_event_audio":
        # play audio
    elif event.type == "voice_stream_event_lifecycle":
        # lifecycle
    elif event.type == "voice_stream_event_error"
        # error
    ...

ベストプラクティス

割り込み

Agents SDK は現在、StreamedAudioInput に対して組み込みの割り込み機能をサポートしていません。検出された各ターンごとに、ワークフローの個別の実行がトリガーされます。アプリケーション内で割り込みを扱いたい場合は、VoiceStreamEventLifecycle イベントをリッスンしてください。turn_started は新しいターンが文字起こしされ処理が開始されたことを示します。turn_ended は該当するターンのすべての音声がディスパッチされた後に発火します。これらのイベントを用いて、モデルがターンを開始したときに話者のマイクをミュートし、そのターンに関連する音声をすべてフラッシュした後にミュート解除する、といった制御が可能です。