Pydantic-AI输出约束技术深度剖析

2025年6月19日21:46:23评论17 views字数 3173阅读10分34秒阅读模式

引言

与大型语言模型（LLM）交互时，一个核心的挑战在于如何确保其输出的稳定性和格式一致性。尽管 LLM 在自然语言理解和生成方面表现出色，但其输出的非确定性常常导致下游应用程序难以处理。开发者们尝试了各种提示工程（Prompt Engineering）技巧，但效果并不稳定。

pydantic-ai 是一个旨在解决此问题的 Python 库，它通过深度整合 Pydantic 的数据验证和模式（Schema）生成能力，为 LLM 的输出提供了一套强大而可靠的结构化约束机制。本文将深入剖析 pydantic-ai 的内部实现，揭示其如何将 Python 类型定义转化为对 LLM 输出的精确控制。

核心设计思想：万物皆工具（Everything as a Tool）

pydantic-ai 最核心的设计思想是将期望的结构化输出抽象为一种特殊的、必须调用的“工具”。它没有将输出结构仅仅作为提示信息的一部分，而是利用了现代 LLM（如 GPT-4、Gemini）强大的工具调用（Tool Calling）或函数调用（Function Calling）API。

这种设计的优势在于：

1. 统一的抽象层：无论是执行外部 API 调用（例如查询天气），还是格式化最终的答案，其底层逻辑都被统一为“工具使用”，大大简化了 Agent 的内部状态管理。

2. 利用模型原生能力：它直接利用了模型厂商为工具调用所做的深度优化，这比简单的文本解析更为可靠和高效。

3. 强制性与可靠性：通过 API 参数，pydantic-ai 可以强制模型必须调用指定的输出工具，从而从根本上保证了返回数据的结构，避免了模型返回普通文本或其他无关内容。

实现流程深度剖析

下面，我们将以一个 Agent 的完整生命周期为例，分步解析其技术实现。

步骤一：模式定义与初始化

当用户创建一个 Agent 实例并指定 output_type 时，一系列的初始化工作便开始了。

from pydantic import BaseModelfrom pydantic_ai import Agentclass CityLocation(BaseModel):    city: str    country: str# 初始化 Agent 并指定输出类型agent = Agent('google:gemini-1.5-flash', output_type=CityLocation)

1. Agent.__init__: 在 agent.py 中，Agent 的构造函数接收 output_type 参数。它立即调用 _output.OutputSchema.build() 方法，将 CityLocation 这个 Python 类型转化为内部表示。

2. OutputSchema.build(): 这个位于 _output.py 的类方法是模式转换的起点。它会为 CityLocation 类型创建一个 OutputTool 实例。这个 OutputTool 内部包含一个 OutputObjectSchema。

3. 生成 JSON Schema: OutputObjectSchema 的核心职责是利用 Pydantic 的 TypeAdapter 对 CityLocation 进行自省，并生成一份完全兼容的 JSON Schema。这份 Schema 详细描述了 city 和 country 字段及其类型，它将作为与 LLM 沟通的“技术合同”。同时，它还会创建一个 Pydantic SchemaValidator，用于后续的数据验证。

步骤二：构建面向模型的工具定义

当 agent.run_sync() 被调用时，pydantic-ai 会根据目标模型（如 Google Gemini）的 API 规范，将上一步生成的通用 JSON Schema 包装成特定格式。

1. 特定于模型的转换: 在 models/google.py 中，GoogleModel 类在其 _generate_content 方法中调用 _get_tools。此方法会将 OutputTool 转换为 Google API 所要求的 FunctionDeclarationDict 格式，其中包含了工具的名称、描述以及最重要的 parameters（即第一步生成的 JSON Schema）。

2. 强制工具调用: 这是确保结构化输出的关键。GoogleModel 调用 _get_tool_config 方法，生成一个 ToolConfigDict。通过将 mode 设置为 ANY 并提供允许的函数名，它指示 Google API 必须调用这个工具，从而排除了模型返回非结构化文本的可能性。

步骤三：响应解析与数据验证

LLM 执行后，会返回一个包含工具调用结果的响应。

1. 解析响应: GoogleModel._process_response 方法解析来自 Google API 的响应，提取出 function_call 部分，并将其封装成一个通用的 ToolCallPart 消息。

2. 数据验证与实例化: 在 _agent_graph.py 的驱动下，这个 ToolCallPart 被传递给 OutputTool.process 方法。该方法进而调用 OutputObjectSchema.process，并使用在初始化时创建的 SchemaValidator 来验证 LLM 返回的参数。如果验证通过，LLM 提供的 JSON 数据就会被成功实例化为一个 CityLocation Python 对象。如果验证失败，则会触发重试机制。

高级特性与鲁棒性设计

a. 动态与复合输出

多模式输出 (Sequence/Union): output_type 支持接收一个类型列表（如 [Flight, Hotel]）。pydantic-ai 会为每个类型创建独立的 OutputTool，让 LLM 根据上下文选择最合适的一个进行“调用”，实现了动态输出格式。

函数即模式 (output_type=function): 用户可以直接传入一个带有类型注解和文档字符串的 Python 函数。_function_schema.py 模块会对函数进行自省，自动生成对应的 JSON Schema，这遵循了 DRY（Don't Repeat Yourself）原则，极为便利。

b. 闭环重试机制

当 Pydantic 验证失败并抛出 ValidationError 时，pydantic-ai 不会立即失败。

它会捕获该错误，并将其中的详细信息（如哪个字段缺失或类型错误）包装成一个 RetryPromptPart 消息。

这个包含修正指令的消息会被添加到对话历史中，并重新发送给 LLM。

LLM 看到自己的错误和修正建议后，有很大几率在下一次尝试中生成正确的数据。这个“请求 → 验证 → 失败 → 修正 → 重试”的闭环大大增强了系统的鲁棒性。

c. Agent Graph 状态机

所有这些复杂的交互流程由 _agent_graph.py 中的一个内部图状态机进行调度。它定义了 UserPromptNode（接收输入）、ModelRequestNode（调用模型）、CallToolsNode（处理工具调用）和 End（结束）等状态节点。这个状态机确保了无论对话进行多少轮、工具被调用多少次、重试发生多少回，整个流程始终清晰、有序且可控。

结论

pydantic-ai 通过将结构化输出巧妙地抽象为一种强制性的工具调用，并深度整合 Pydantic 的模式生成与验证能力，实现了一套极为可靠的 LLM 输出约束机制。其设计不仅优雅地统一了多种交互逻辑，还通过闭环重试和精巧的状态机管理保证了系统的鲁棒性。这种从“提示”到“编程”的范式转变，使得构建可预测、生产级别的 AI 应用成为可能。

原文始发于微信公众号（赛博攻防悟道）：Pydantic-AI输出约束技术深度剖析

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Pydantic-AI输出约束技术深度剖析

引言

核心设计思想：万物皆工具（Everything as a Tool）

实现流程深度剖析

步骤一：模式定义与初始化

步骤二：构建面向模型的工具定义

步骤三：响应解析与数据验证

高级特性与鲁棒性设计

a. 动态与复合输出

b. 闭环重试机制

c. Agent Graph 状态机

结论

人工智能大模型知识库建设通用要求标准共建计划

一文搞懂 | 大模型为什么出现幻觉？从成因到缓解方案

【论文速读】|大语言模型在渗透测试中的惊人有效性研究

大模型基础：模型量化概念与技术详解

安全AI生命周期管理框架：SAIL框架

机器学习常见算法【上】

机器学习在网络安全中的应用

多模态大语言模型｜SPP第139期

专题·人工智能安全 | 大模型联网的风险分析与应对举措

从0到1大模型MCP自动化漏洞挖掘实践

发表评论

在线咨询

微信