ガードレール
ガードレールは エージェント と 並行して 実行され、ユーザー入力のチェックや検証を行います。例えば、顧客からのリクエスト対応に非常に賢い(ゆえに遅く/高価な)モデルを使うエージェントがあるとします。悪意のある ユーザー がそのモデルに数学の宿題を手伝わせるような指示を出すことは避けたいはずです。そのため、速く/安価なモデルでガードレールを実行できます。ガードレールが悪意ある使用を検知した場合、即座にエラーを送出して高価なモデルの実行を停止し、時間やコストを節約できます。
ガードレールには 2 種類あります:
- 入力ガードレールは初期のユーザー入力に対して実行されます
- 出力ガードレールは最終的なエージェント出力に対して実行されます
入力ガードレール
入力ガードレールは次の 3 ステップで実行されます:
- まず、ガードレールはエージェントに渡されたものと同じ入力を受け取ります。
- 次に、ガードレール関数を実行し、
GuardrailFunctionOutput
を生成し、これをInputGuardrailResult
にラップします。 - 最後に、
.tripwire_triggered
が true かどうかを確認します。true の場合、InputGuardrailTripwireTriggered
例外が送出され、ユーザーへの適切な応答や例外処理が行えます。
Note
入力ガードレールはユーザー入力に対して実行されることを想定しているため、あるエージェントのガードレールは、そのエージェントが「最初の」エージェントである場合のみ実行されます。なぜ guardrails
プロパティがエージェント側にあり、Runner.run
に渡さないのか疑問に思うかもしれません。これは、ガードレールは実際のエージェントに密接に関係する傾向があるためです。エージェントごとに異なるガードレールを実行するため、コードを同じ場所に置くことが可読性の向上に役立ちます。
出力ガードレール
出力ガードレールは次の 3 ステップで実行されます:
- まず、ガードレールはエージェントが生成した出力を受け取ります。
- 次に、ガードレール関数を実行し、
GuardrailFunctionOutput
を生成し、これをOutputGuardrailResult
にラップします。 - 最後に、
.tripwire_triggered
が true かどうかを確認します。true の場合、OutputGuardrailTripwireTriggered
例外が送出され、ユーザーへの適切な応答や例外処理が行えます。
Note
出力ガードレールは最終的なエージェント出力に対して実行されることを想定しているため、あるエージェントのガードレールは、そのエージェントが「最後の」エージェントである場合のみ実行されます。入力ガードレールと同様に、ガードレールは実際のエージェントに密接に関係する傾向があるため、コードを同じ場所に置くことが可読性の向上に役立ちます。
トリップワイヤー
入力または出力がガードレールに不合格となった場合、ガードレールはトリップワイヤーでそれを通知できます。トリップワイヤーがトリガーされたガードレールを検出したら、直ちに {Input,Output}GuardrailTripwireTriggered
例外を送出し、エージェントの実行を停止します。
ガードレールの実装
入力を受け取り、GuardrailFunctionOutput
を返す関数を用意する必要があります。次の例では、その裏でエージェントを実行することでこれを行います。
from pydantic import BaseModel
from agents import (
Agent,
GuardrailFunctionOutput,
InputGuardrailTripwireTriggered,
RunContextWrapper,
Runner,
TResponseInputItem,
input_guardrail,
)
class MathHomeworkOutput(BaseModel):
is_math_homework: bool
reasoning: str
guardrail_agent = Agent( # (1)!
name="Guardrail check",
instructions="Check if the user is asking you to do their math homework.",
output_type=MathHomeworkOutput,
)
@input_guardrail
async def math_guardrail( # (2)!
ctx: RunContextWrapper[None], agent: Agent, input: str | list[TResponseInputItem]
) -> GuardrailFunctionOutput:
result = await Runner.run(guardrail_agent, input, context=ctx.context)
return GuardrailFunctionOutput(
output_info=result.final_output, # (3)!
tripwire_triggered=result.final_output.is_math_homework,
)
agent = Agent( # (4)!
name="Customer support agent",
instructions="You are a customer support agent. You help customers with their questions.",
input_guardrails=[math_guardrail],
)
async def main():
# This should trip the guardrail
try:
await Runner.run(agent, "Hello, can you help me solve for x: 2x + 3 = 11?")
print("Guardrail didn't trip - this is unexpected")
except InputGuardrailTripwireTriggered:
print("Math homework guardrail tripped")
- このエージェントをガードレール関数内で使用します。
- これはエージェントの入力/コンテキストを受け取り、結果を返すガードレール関数です。
- ガードレール結果に追加情報を含めることができます。
- これはワークフローを定義する実際のエージェントです。
出力ガードレールも同様です。
from pydantic import BaseModel
from agents import (
Agent,
GuardrailFunctionOutput,
OutputGuardrailTripwireTriggered,
RunContextWrapper,
Runner,
output_guardrail,
)
class MessageOutput(BaseModel): # (1)!
response: str
class MathOutput(BaseModel): # (2)!
reasoning: str
is_math: bool
guardrail_agent = Agent(
name="Guardrail check",
instructions="Check if the output includes any math.",
output_type=MathOutput,
)
@output_guardrail
async def math_guardrail( # (3)!
ctx: RunContextWrapper, agent: Agent, output: MessageOutput
) -> GuardrailFunctionOutput:
result = await Runner.run(guardrail_agent, output.response, context=ctx.context)
return GuardrailFunctionOutput(
output_info=result.final_output,
tripwire_triggered=result.final_output.is_math,
)
agent = Agent( # (4)!
name="Customer support agent",
instructions="You are a customer support agent. You help customers with their questions.",
output_guardrails=[math_guardrail],
output_type=MessageOutput,
)
async def main():
# This should trip the guardrail
try:
await Runner.run(agent, "Hello, can you help me solve for x: 2x + 3 = 11?")
print("Guardrail didn't trip - this is unexpected")
except OutputGuardrailTripwireTriggered:
print("Math output guardrail tripped")
- これは実際のエージェントの出力型です。
- これはガードレールの出力型です。
- これはエージェントの出力を受け取り、結果を返すガードレール関数です。
- これはワークフローを定義する実際のエージェントです。