コンテンツにスキップ

ガードレール

ガードレールは、エージェントと並行して実行することも、完了するまで実行をブロックすることもできます。これにより、ユーザー入力やエージェント出力に対してチェックや検証を行えます。たとえば、高価なモデルを呼び出す前に、軽量なモデルをガードレールとして実行できます。ガードレールが悪意のある利用を検出した場合、エラーを発生させて、高価なモデルの実行を停止できます。

ガードレールには 2 種類あります。

  1. 入力ガードレール は、最初のユーザー入力に対して実行されます。
  2. 出力ガードレール は、最終的なエージェント出力に対して実行されます。

ガードレールはエージェントに紐づけられますが、ワークフロー内のすべてのエージェントで必ず実行されるわけではありません。

  • 入力ガードレール は、チェーン内の最初のエージェントに対してのみ実行されます。
  • 出力ガードレール は、最終出力を生成するエージェントに対してのみ実行されます。
  • ツールガードレール は、すべての関数ツール呼び出しで実行され、入力ガードレールは実行前に、出力ガードレールは実行後に実行されます。

マネージャーやハンドオフを含むワークフローで、各カスタム関数ツール呼び出しの前後にチェックが必要な場合は、エージェントレベルの入力/出力ガードレールではなく、ツールガードレール を使用してください。

入力ガードレールは 3 つのステップで実行されます。

  1. ガードレールは、エージェントに渡されるものと同じ入力を受け取ります。
  2. ガードレール関数が実行され、InputGuardrailResult でラップされた GuardrailFunctionOutput を返します。
  3. tripwireTriggeredtrue の場合、InputGuardrailTripwireTriggered エラーがスローされます。

注記 入力ガードレールはユーザー入力を対象としているため、そのエージェントがワークフロー内の 最初の エージェントである場合にのみ実行されます。エージェントごとに異なるガードレールが必要になることが多いため、ガードレールはエージェント自体に設定します。

  • runInParallel: true(デフォルト)は、LLM/ツール呼び出しと並行してガードレールを開始します。これによりレイテンシは最小化されますが、後でガードレールが発火した場合でも、モデルがすでにトークンを消費していたり、ツールを実行していたりする可能性があります。
  • runInParallel: false は、モデルを呼び出す 前に ガードレールを実行し、ガードレールがリクエストをブロックした場合のトークン消費とツール実行を防ぎます。レイテンシよりも安全性とコストを優先する場合に使用してください。

出力ガードレールは 3 つのステップで実行されます。

  1. ガードレールは、エージェントが生成した出力を受け取ります。
  2. ガードレール関数が実行され、OutputGuardrailResult でラップされた GuardrailFunctionOutput を返します。
  3. tripwireTriggeredtrue の場合、OutputGuardrailTripwireTriggered エラーがスローされます。

注記 出力ガードレールは、そのエージェントがワークフロー内の 最後の エージェントである場合にのみ実行されます。リアルタイム音声インタラクションについては、音声エージェントの構築 を参照してください。

出力ガードレール関数は、基盤となる modelResponse と、そのターンで生成された出力項目を含む任意の details オブジェクトも受け取ります。最終出力だけではレスポンスを通すべきか判断できない場合に使用してください。たとえば、ガードレールを発火させる前に、生成された項目リスト全体やプロバイダーのレスポンスメタデータを調べたい場合などです。

ツールガードレールは 関数ツール をラップし、実行の前後にツール呼び出しを検証またはブロックできるようにします。ツール自体に(tool() オプション経由で)設定され、そのツールの呼び出しごとに実行されます。

実際には、tool({...})inputGuardrailsoutputGuardrails、またはその両方を設定するカスタム関数ツールを指します。

  • 入力ツールガードレール は、ツールの実行前に実行され、メッセージ付きで呼び出しを拒否したり、トリップワイヤーをスローしたりできます。
  • 出力ツールガードレール は、ツールの実行後に実行され、出力を拒否メッセージに置き換えたり、トリップワイヤーをスローしたりできます。

ツールガードレールは behavior を返します。

  • allow — 次のガードレールまたはツール実行へ進みます。
  • rejectContent — メッセージで短絡します(ツール呼び出しはスキップされるか、出力が置き換えられます)。
  • throwException — トリップワイヤーエラーをただちにスローします。

ツールガードレールは、tool() で定義する関数ツールに適用されます。ハンドオフは関数のようなツールとしてモデルに提示されますが、通常の関数ツールパイプラインではなく SDK のハンドオフパスを通るため、ツールガードレールはハンドオフ呼び出し自体には適用されません。組み込みツール(Hosted)と組み込み実行ツール(computerToolshellToolapplyPatchTool)もこのガードレールパイプラインを使用せず、agent.asTool() は現時点ではツールガードレールのオプションを直接公開していません。

ガードレールが失敗すると、トリップワイヤーを通じてそのことを通知します。トリップワイヤーが発火するとすぐに、runner は対応するエラーをスローし、実行を停止します。

ガードレールは、単に GuardrailFunctionOutput を返す関数です。以下は、内部で別のエージェントを実行して、ユーザーが数学の宿題の手助けを求めているかどうかをチェックする最小限の例です。

入力ガードレールの例
import {
Agent,
run,
InputGuardrailTripwireTriggered,
InputGuardrail,
} from '@openai/agents';
import { z } from 'zod';
const guardrailAgent = new Agent({
name: 'Guardrail check',
instructions: 'Check if the user is asking you to do their math homework.',
outputType: z.object({
isMathHomework: z.boolean(),
reasoning: z.string(),
}),
});
const mathGuardrail: InputGuardrail = {
name: 'Math Homework Guardrail',
// Set runInParallel to false to block the model until the guardrail completes.
runInParallel: false,
execute: async ({ input, context }) => {
const result = await run(guardrailAgent, input, { context });
return {
outputInfo: result.finalOutput,
tripwireTriggered: result.finalOutput?.isMathHomework === false,
};
},
};
const agent = new Agent({
name: 'Customer support agent',
instructions:
'You are a customer support agent. You help customers with their questions.',
inputGuardrails: [mathGuardrail],
});
async function main() {
try {
await run(agent, 'Hello, can you help me solve for x: 2x + 3 = 11?');
console.log("Guardrail didn't trip - this is unexpected");
} catch (e) {
if (e instanceof InputGuardrailTripwireTriggered) {
console.log('Math homework guardrail tripped');
}
}
}
main().catch(console.error);

出力ガードレールも同じように機能します。

出力ガードレールの例
import {
Agent,
run,
OutputGuardrailTripwireTriggered,
OutputGuardrail,
} from '@openai/agents';
import { z } from 'zod';
// The output by the main agent
const MessageOutput = z.object({ response: z.string() });
type MessageOutput = z.infer<typeof MessageOutput>;
// The output by the math guardrail agent
const MathOutput = z.object({ reasoning: z.string(), isMath: z.boolean() });
// The guardrail agent
const guardrailAgent = new Agent({
name: 'Guardrail check',
instructions: 'Check if the output includes any math.',
outputType: MathOutput,
});
// An output guardrail using an agent internally
const mathGuardrail: OutputGuardrail<typeof MessageOutput> = {
name: 'Math Guardrail',
async execute({ agentOutput, context }) {
const result = await run(guardrailAgent, agentOutput.response, {
context,
});
return {
outputInfo: result.finalOutput,
tripwireTriggered: result.finalOutput?.isMath ?? false,
};
},
};
const agent = new Agent({
name: 'Support agent',
instructions:
'You are a user support agent. You help users with their questions.',
outputGuardrails: [mathGuardrail],
outputType: MessageOutput,
});
async function main() {
try {
const input = 'Hello, can you help me solve for x: 2x + 3 = 11?';
await run(agent, input);
console.log("Guardrail didn't trip - this is unexpected");
} catch (e) {
if (e instanceof OutputGuardrailTripwireTriggered) {
console.log('Math output guardrail tripped');
}
}
}
main().catch(console.error);

ツールの入力/出力ガードレールは次のようになります。

ツールガードレール
import {
Agent,
ToolGuardrailFunctionOutputFactory,
defineToolInputGuardrail,
defineToolOutputGuardrail,
tool,
} from '@openai/agents';
import { z } from 'zod';
const blockSecrets = defineToolInputGuardrail({
name: 'block_secrets',
run: async ({ toolCall }) => {
const args = JSON.parse(toolCall.arguments) as { text?: string };
if (args.text?.includes('sk-')) {
return ToolGuardrailFunctionOutputFactory.rejectContent(
'Remove secrets before calling this tool.',
);
}
return ToolGuardrailFunctionOutputFactory.allow();
},
});
const redactOutput = defineToolOutputGuardrail({
name: 'redact_output',
run: async ({ output }) => {
const text = String(output ?? '');
if (text.includes('sk-')) {
return ToolGuardrailFunctionOutputFactory.rejectContent(
'Output contained sensitive data.',
);
}
return ToolGuardrailFunctionOutputFactory.allow();
},
});
const classifyTool = tool({
name: 'classify_text',
description: 'Classify text for internal routing.',
parameters: z.object({
text: z.string(),
}),
inputGuardrails: [blockSecrets],
outputGuardrails: [redactOutput],
execute: ({ text }) => `length:${text.length}`,
});
const agent = new Agent({
name: 'Classifier',
instructions: 'Classify incoming text.',
tools: [classifyTool],
});
  1. guardrailAgent はガードレール関数の内部で使用されます。
  2. ガードレール関数はエージェントの入力または出力を受け取り、結果を返します。
  3. 追加情報をガードレールの結果に含めることができます。
  4. agent は、ガードレールが適用される実際のワークフローを定義します。