Streaming vs Blocking

Guardrails supports two approaches for handling LLM output: non-streaming (safe, default) and streaming (fast). The choice balances safety vs. speed.

Non-Streaming: Safe and Reliable (Default)

Safe Pipeline

Default behavior (stream=False):

Best for: High-assurance, compliance-critical scenarios

response = await client.responses.create(
    model="gpt-5",
    input="Your input",
    stream=False  # Safe and reliable (default)
)

Fast Pipeline

Set stream=True for real-time output:

Best for: Low-risk, latency-sensitive applications

response = await client.responses.create(
    model="gpt-5",
    input="Your input",
    stream=True  # Fast but some risk
)

See complete examples: