一、什么是Agent
1、用快思考与慢思考类比LLM的能力
2、OpenAI对AI Agent的定义
2023 年 6 月 Open AI 应用研究负责人 Lilian Weng 发布 《LLM Powered Autonomous Agents》,并在文章中提出“Agent= 大型语言模型(LLMs)+规划(Planning)+记忆(Memory)+工具使用(Tools)”
1)推理和行动能力, 即使用LLMs 理解、执行和复盘任务,包括将复杂任务拆分为更小的、 可控制的子任务以提升效率,并通过过往经验和错误进行调整以提升行动质量;
2)短期、长期的记忆能力:短期记忆即利用 Prompt 中的信息和上下文信息进行学习,长期记忆通常使用 外部向量存储和快速检索实现,使得 Agents 能够在更长的时间范围内保存和回忆(无限)信息;
3)调用外部 API 以使用“工具”的能力,比如浏览网页、打开应用程序、读写文件、支付费用甚至控制用户设备等。与传统的自动化工具相比,AI Agents 能够在陌生的、不可预测的新环境中进行工作。
4)在openai定义基础上,还应加上接受反馈能力。人类在处理复杂任务时,也需要与环境交互,我们的行动会作用于环境使之发生变化,环境会给我们反馈,我们结合对反馈的观察,继而再做决策。因此,Agent会基于做出Action得到正向的或试错的反馈、阶段性结果或奖励,然后做出下一轮的planning和action。
3、更广义的定义:
当前对 AI Agent 整体框架的设计基本上可以分为感知、定义、记忆、规划、行动五类模块
l感知模块,主要处理各类输入,解决智能体与环境交互的问题;
l定义模块,主要包含了 Agent 的属性、目标等信息;
l记忆模块,包括短期记忆及长期记忆,用于面对复杂任务时提供历史策略等;
l规划模块,包括任务的分解、反思、推理推断、策略制定等,是 Agent 的大脑;
l行动模块,包括以文字、具身行动、工指令等多种形式输出结果。
二、AI能力的发展阶段
1、AI agent能力的三个阶段:
3、目前单任务场景已有一些应用:
如办公场景:大厂的 Microsoft 365 Copilot(以及新推出的个人版 Copilot Pro)和 Google Duet AI、主打轻文档 办公的 Notion AI、助力代码开发的 Copilot X 和数据分析处理的 Deepnote AI 等。常见功能包括起草文件、汇总内容、提供公式建议等,以侧边栏、对话框的形式帮助用户自动调用工作空间中的文件和信息并进行处理生成。
4、未来,AI Agent将从解决问题的执行环节进一步向思考如何解决问题的规划环节渗透。
期待Agent可以在工作场景可以做到:
三、AI Agent的落地情况
1、Agent案例——toC终端的的个人视觉+语音助手类:
传统的智能语音助手:
以知识图谱、规则为核心。,其整体运行逻辑为:通过和“主人”的语言沟通,确立要完成的任务目标,并结合背景、个人信息、知识图谱等,给予主人反馈(可以是语言,也可以是行动)。具体而言,可以拆解为多个环节:人声识别、理解意图、对话管理、语音合成等,其内核有知识图谱给予支撑,外延有神经网络给予支持。
传统 AI Agent 仅可应付简单场景,智能化程度是核心问题。虽然不同公司在技术上存在差异化,但传统 AI Agent 整体智能化程度不高,仅可应付简单场景的使用——如响应查天气、上闹钟、听音乐、关灯等需求,稍微复杂的需求则很有可能使传统 AI Agent 在某个环节(识别、理解、判断均有可能)出现失误。
大模型时代的升级版:
²Meta 将 Meta AI 嵌入 Ray-Ban Meta 智能眼镜,未来 AI Agent 和智能硬件结合值得关注。根据 Meta,用户戴上眼镜后,只需喊“Hey, Meta”,即可召唤 Meta AI 虚拟助手,免除了双手操作的烦恼。目前该智能眼镜正处于多模态能力测试(美国小范围测试)中,能够看到、听到周围发生的一切,用户可以要求 Meta AI 为拍摄照片增加说明、描述手持物体等;由 Bing部分支持的实时搜索也正在该智能眼镜上测试,可向其询问最新的比赛得分情况以及当地的景点、餐厅等信息。
²GPT-4o模型已经也开始具备 Agent 能力雏形
2、大厂在agent领域的尝试:
lOpenai:创建GPTs
l微软:AutoGen
微软发布的AutoGen agent是可定制的、可对话的,并能以各种模式运行,这些模式采用 LLM、人类输入和工具的组合。使用 AutoGen,开发人员还可以灵活定义agent交互行为。自然语言和计算机代码都可用于为不同的应用编程灵活的对话模式。AutoGen 可作为一个通用框架,构建具有不同复杂性和 LLM 能力的各种应用。实证研究证明了该框架在许多样本应用中的有效性,应用领域包括数学、编码、问答、运筹学、在线决策、娱乐等。
3、其他公司agent的案例
lAutoGPT:利用 LLM 逐步拆解任务,外挂插件提升能力
AutoGPT 具备 AI Agent 的雏形。AutoGPT 是一个构建在 GPT-4 基础上的开源 Python 应用程序,由视频游戏公司 Significant Gravitas Ltd 的创始人 Toran Bruce Richards 于 2023年 3 月 30 日推出,其功能包括从互联网收集信息、存储数据、通过实例生成文本、访问各种网站和平台以及使用 LLM 执行摘要的能力,常用于市场研究、网站创建、博客写作和创建播客。从所需工具看,构建 AutoGPT 需要 Python(程序)、OpenAI API 密钥(大模型)、Pinecone API 密钥(向量数据库产品)、Git(开放源码版本控制)、ElevenLabs API(可选语音相关模块)。
AutoGPT 的能力范围仍然受到 Python 函数集能力边界的限制,在搜索网络、管理内存、与文件交互、执行代码和生成图像等具备较丰富可调用函数的领域效果较好,但对于更为复杂的任务处理能力有限。
lDevin利用 AI实现自主编程。
2024年3月AI初创公司Cognition发布AI软件工程师Devin, Devin 可以规划和执行需要数千个决策的复杂工程任务,可在每一步都回忆起相关的上下文, 随着时间的推移学习,并纠正错误,此外 Devin 还可以与用户积极协作,实时报告其进度,接受反馈,并根据需要与用户一起完成设计选择。
从 Devin 的任务实现方式看,主要分为几个步骤:1)理解用户意图,通过 LLM 等 NLP 技术分析用户的自然语言描述,提取关键功能和要求,将用户分解为任务清单;2)自主学习专业材料(如 API 文档、开源库、源码),掌握代码结构,LLM 技术可用于加强对专业材料的理解能力,代码结构的模式识别与匹配则可以通过机器学习模型强化;3)生成代码并根据用户的提示调 Bug。
研究人员在 SWE 基准上评估了 Devin, 要求代理解决 Django 和 scikit-learn 等开源项目中发现的现实 GitHub 问题。Devin 端到端 正确解决了 13.86%的问题,远远超过了之前 1.96%的最先进水平。Devin 没有得到帮助, 而所有其他模型在给出了要编辑的确切文件的条件下,以前最好的模型也只能解决 4.80% 的问题。
四、Agent 的关键能力要素
1、记忆能力:
现有研究多数把记忆划分为短期记忆、长期记忆。
2、规划能力:
规划是 AI Agent 能够解决复杂问题的关键,从功能看主要包括子目标分解、反思及提炼等。其核心能力还是来自于底层模型的推理能力。随着 LLM 技术的发展,通过微调或思维链(CoT)等技术对 AI Agent 进行干预,使 Agent 逐步提升了规划的效率。
利用 ReAct 方式发挥 LLM 推理能力。ReAct(Reasoning and Acting)指使用 LLM 以交错的方式生成推理轨迹和特定于任务的操作,从而实现两者之间的更大协同作用:推理轨迹帮助模型诱导、跟踪和更新行动计划以及处理异常,而操作允许它与外部源(例如知识库或环境)交互以收集更多信息。具体可通过为每个工具提供描述,让LLM 选择工具,或为 Agent 提供搜索工具、查找工具,让 LLM 与文档库交互。ReAct 方式能够将必要的知识提 供给 LLM 供其分析决策,避免其因使用超出训练过程中的数据进行逻辑分析时产生幻觉和 错误判断的情况。但从当前的实践看,ReAct 方式仍然存在对于复杂问题的解决能力有限、 成本相对不可控(LLM 拆解、循环任务的方式存在不确定性)、响应速度较 API 慢等局限性。
3、行动能力:
怎么让大模型学会自动按需使用各种工具呢?这里有两种观点。
减少幻觉本质上还是需要靠 scaling law,靠基础模型的进步。也有一些工程方法减少现有模型的幻觉。两种典型的方法:事实性校验和多次生成。
l事实性校验就是首先用大模型生成回答,然后用 RAG 的方法,用搜索引擎、向量数据库、倒排索引或者知识图谱找出与回答内容匹配的原始语料,然后将回答内容和原始语料送进大模型,让大模型判断回答与原始语料是否相符。
l多次生成是 SelfCheckGPT 这篇论文提出的,它的思想也很简单,就是多次生成同一问题的回答,然后把这些回答都放进大模型里,让大模型从中挑出最一致的那个。多次生成方法可以解决偶发的幻觉问题,但不能解决系统性偏差。
↑↑↑长按图片识别二维码关註↑↑↑
原文始发于微信公众号(全栈网络空间安全):AI应用落地关键AI Agent
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论