G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

admin 2024年10月15日13:11:56评论16 views字数 2583阅读8分36秒阅读模式

近年来,大型语言模型(LLM)的飞速发展彻底改变了自然语言处理的格局。然而,伴随着其令人瞩目的成就,大模型也面临着诸多挑战,尤其是在安全性、隐私保护以及输出准确性方面。其中,模型幻觉(Hallucination)问题尤为突出,它指的是模型生成看似连贯但实际上与事实不符的内容。这种现象不仅影响模型的可靠性,还可能导致严重的误导。特别值得关注的是事实冲突型幻觉(Fact-Conflicting Hallucination, FCH),即模型生成的内容直接与已知事实相矛盾。这一问题的复杂性和潜在危害使得它成为当前AI研究中亟待解决的关键难题之一。但是检测FCH问题仍然面临着一些挑战,包括如何构建多样化的测试数据集和如何准确地验证大模型的输出。

基于上述背景,一个由华中科技大学和新南威尔士大学等高校联合组成的研究团队近日发表了题为Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models的一项研究,该研究被OOPSLA 2024所接收。

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

作者通过一个生动的例子引入了当前 LLM 幻觉检测中的不足之处,揭示了其在处理复杂问题时的局限性。现有方法缺少复杂问题的基准测试,并且过度依赖人工验证。此外,如何准确验证 LLM 的回答也颇具挑战性。以日本作家村上春树为例,他多次被提名但从未获得诺贝尔奖。如果我们只提出关于村上春树的单一问题,LLM 通常能正确回答。然而,当涉及多个实体时,情况就变得复杂。例如,若问:“村上春树和鲍勃·迪伦是否获得过同样的奖项?” ChatGPT 可能会错误地回答村上春树也曾获得诺贝尔奖。这一简单实验揭示了两个重要挑战。

首先,如何自动生成更复杂的问题,以揭示 LLM 的更多局限。为此,作者从逻辑编程中找到了灵感,利用逻辑推理从现有事实生成新的逻辑合理的事实,并据此生成更复杂的问题。

其次,如何自动验证 LLM 的输出。在作者的测试框架中,使用了蜕变关系(metamorphic relations)来对比 LLM 的回答与真实情况,从而构建了自动化的测试基准。

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

整个Drowzee的工作流程如图所示。首先,作者从可靠的知识数据库中生成真实的事实和三元组。然后,作者使用Prolog和设计的逻辑推理规则推导出更复杂的事实。接着,作者创建问答对和提示来与LLM进行交互。在输入提示并得到回应后,作者使用语义结构检查回应是否正常,或是否存在事实冲突的幻觉。

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

Drowzee 的首个模块通过从可靠的知识库中提取基本事实,并将这些事实转化为逻辑推理所需的三元组。作者专门从 Wikidata 的九个热门领域中获取数据,并选取三种常见的关系模式,构建知识基础。这为后续的推理和问答生成提供了原始材料。

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

接下来,Drowzee 进入推理阶段。基于已提取的事实,作者使用 Prolog 编写的逻辑程序推导出更多复杂的事实。Prolog 是一个非常强大的逻辑编程工具,在这里,它主要分为两部分:事实(R) 和 规则(Q)。简单来说,事实就是带有实体参数的关系谓词,而规则则是根据这些谓词推导新知识的逻辑语句。

为了让这些推理更加丰富,作者设计了五种推理规则:否定、对称、逆向、传递和复合规则。通过这些规则,Prolog 引擎能自动生成大量新的三元组,扩展原始知识。最终,生成的新知识可以被用来创建一系列测试用例,进一步验证大语言模型的表现。

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

从生成的三元组中,作者构建了专门用于 FCH 测试的问答对。不同的关系类型有其特定的问答需求,作者通过预定义模板,生成了这些独特的问答对。然后,利用 LLM 的知识与推理能力,Drowzee 系统给出对问题的回答——是、否或“不知道”。

最后一个模块则专注于如何通过验证 LLM 的回答,改进 FCH 检测。Drowzee 系统通过比较 LLM 的回答和验证事实之间的相似性,来判断 LLM 是否产生了幻觉现象。如果相似性低于某个阈值,就说明 LLM 的回答与真实情况存在明显差异,可能出现了幻觉。反之,则认为 LLM 的回答符合事实。

具体算法流程是这样的:首先,系统会检查 LLM 是否正确处理了“不知道”的回答。接着,构建回答的语义结构,最后,通过边向量和节点向量的相似性计算,验证回答的真实性。

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

为了评估 Drowzee 的有效性,作者通过生成 7,200 个测试用例,对各类大语言模型(LLMs)进行了幻觉(FCH)检测。实验结果显示,GPT-4 在测试中表现最好,幻觉率最低,仅为 24%。相较之下,ChatGPT 的幻觉率为 42%,而较小的开源模型如 Llama2-7B 表现较差,但其更大版本的正确回答率甚至超过了 ChatGPT。这表明 Drowzee 生成的测试用例能够有效触发模型的幻觉,尤其是在需要逻辑推理的情况下。

在不同领域的表现上,Drowzee 发现各模型在自然科学和数学领域的幻觉率较高,可能是由于这些领域的知识覆盖在模型的训练数据中不足。此外,错误推理幻觉占据了大部分比例,这表明 LLM 在推理能力上的不足比知识缺乏更容易导致幻觉。通过个案分析,作者展示了模型在时间属性推理和面对不熟悉知识时的弱点作者展示了模型在时间属性推理和面对不熟悉知识时的弱点,甚至可能编造信息。关于更多详细的实验结果和案例分析,感兴趣的读者可以查阅论文内容。

总结来看,Drowzee 提供了一种新的、基于逻辑推理的自动化检测和验证大语言模型幻觉的框架,并为未来研究如何缓解幻觉提供了新的思路。

G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法

未来的工作

在这个工作中作者尝试将逻辑编程应用到大模型幻觉检测中,后续的工作将围绕更复杂的逻辑推理(时序逻辑等)和更深入的模型幻觉研究(现象分析与白盒缓解技术等)。

论文链接:https://arxiv.org/abs/2405.00648

仓库链接:https://github.com/security-pride/Drowzee

作者简介:
李宁珂,华中科技大学研三学生,主要研究方向为智能化程序分析和大模型安全。个人主页:https://ningke-li.github.io/

王凯龙,华中科技大学副教授,为本文的通讯作者,主要研究方向为大模型安全,移动应用安全及隐私。

原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型“说胡话”:一个基于蜕变测试的大模型幻觉检测方法

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年10月15日13:11:56
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   G.O.S.S.I.P 阅读推荐 2024-10-14 通过逻辑推理捉住大模型说胡话:一个基于蜕变测试的大模型幻觉检测方法https://cn-sec.com/archives/3268480.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息