ChatGPT内容缺陷识别指南:说谎的人工智能?

admin 2023年2月16日21:02:41评论43 views字数 2951阅读9分50秒阅读模式
ChatGPT内容缺陷识别指南:说谎的人工智能?
ChatGPT制作的内容全面且看似准确但是研究人员、艺术家和教授等群体发现其现存的缺点会降低内容产出的质量。
它无法创建感觉自然、包含真正见解的内容;
它无法感受或创作原创思想,这使其成为产生艺术表现形式的糟糕选择;
有时它还会“说谎”,使得部分内容必须经过专业人工审查……

摘译 | 李秋娟/赛博研究院实习研究员

来源 | SEJ

“人工智能生成内容”(AIGC,AI Generated Content)最近火遍全球。以其为核心技术的聊天机器人ChatGPT纷纷刷屏,引发讨论热潮。

但ChatGPT的开发者OpenAl同时警告,现在人们还不能依靠ChatGPT来完成重要事项,因为它在稳建性和真实性上还有所欠缺

ChatGPT究竟还有哪些问题?本文将带你了解如何识别ChatGPT的生成内容。

01

无法使用习语,可以被检测为非人类

成语带有比喻意义的短语例如雨过天晴Every cloud has a silver lining如果一段内容中缺少习语可能代表该内容机器生成也成为检测算法的一个小技巧

2022年发表的论文《神经-统计特征在检测生成训练中的对抗鲁棒性》(Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers)解释了这一点:“复杂的短语特征,是指基于特定单词和短语分析其在文本中出现的频率......习语特征在当前生成模型的检测中保留了最强大的预测能力。”这种无法使用习语的特性导致ChatGPT的输出显得并不自然。

02

缺乏表达能力

表达是交流思想或感受的行为。ChatGPT输出不包含表达,仅包含陈述

一位艺术家评论说,ChatGPT的输出是在模仿艺术,但缺乏艺术所想表达的实际品质。它无法像人类一样生产在情感上触动人心的内容——因为它没有实际的想法或感受。

音乐艺术家Nick Cave在其社交平台上发表的一篇文章,评论了ChatGPT按照其风格创作的歌词。原本的歌词讲述了一个与歌曲中说话的人的悲情、欲望、羞耻和故意欺骗产生共鸣的故事。

但ChatGPT仅模仿了艺术家的风格,实际上并没有传达任何信息——因此,Nick Cave认为ChatGPT制作的歌词是对创作者来说是一种拙劣可笑的模仿。

他认为:“一首伟大的歌曲之所以伟大,是因为这是对一个人的脆弱、危险、渺小气喘吁吁的对抗;正是这种救赎性的艺术行为激起了听众的心,听众在歌曲的内在运作中认出了自己的鲜血、挣扎与苦难。”

03

不具备洞察力

洞察力是好文章的标志,而这正是ChatGPT并不擅长的。

人类通过知识进行创造,也通过个人经验和主观感知创造。但ChatGPT生成的学术论文缺乏对主题的见解。它擅长总结,却无法提供对该主题的独特见解。

The Insider网站援引阿巴拉契亚州立大学教授Christopher Bartel的观点:“虽然ChatGPT文章可能表现出很高明的语法和复杂的想法,但它仍然缺乏洞察力。”

04

过于详细和全面

ChatGPT的训练方式是在人类对答案感到满意时给予机器奖励。评分者倾向于更喜欢有更多细节的答案。但有时,直接回答比全面回答更好。

2023年1月发表的一篇论文《ChatGPT与人类专家的距离有多近?》(How Close is ChatGPT to Human Experts?Comparison Corpus, Evaluation, and Detection)发现,ChatGPT内容中的模式使其不太适合某些关键应用程序。研究表明,在与金融和心理学相关的问题中,超过50%的人更喜欢ChatGPT的答案,但ChatGPT无法回答医学问题。

研究人员写道:“ChatGPT在医学领域的表现不佳。ChatGPT通常会给出冗长的医疗咨询答案,而人类专家可能会直接给出直截了当的诊断或建议。”

ChatGPT的制造商OpenAI也承认这是一个已知的限制。ChatGPT倾向于从不同的角度涵盖一个主题,这使得当最佳答案就是直接答案时它不能给出更短、更直接的回答。因此,使用ChatGPT的营销人员必须注意这一点,因为需要直接回答的网站访问者不会对冗长的网页感到满意。

05

逻辑清晰但不自然

ChatGPT的写作风格不仅冗长,而且倾向于遵循一种模板,这导致其内容具有一种非人类的独特风格。这种风格差异体现在人类和机器在回答问题的不同方式上。

电影《银翼杀手》中有一个场景包含一系列问题,目的是判断回答问题的对象是人类还是机器人。这些问题是“Voigt-Kampff测试”中的一部分。

其中一个问题是:“你在看电视,突然意识到有一只黄蜂在你的手臂上爬行。你将怎么做?”正常的人类反应是尖叫、拍打和驱赶。

但是当向ChatGPT提出这个问题时,它提供了一个精心组织的答案,总结了逻辑上的多种可能结果,却未能直接回答问题——这给人一种非常不自然的感觉,对于人工智能来说是个减分项。

ChatGPT内容缺陷识别指南:说谎的人工智能?

ChatGPT回答Voight-Kampff测试问题的屏幕截图

06

ChatGPT说谎(幻觉事实)

有研究注意到ChatGPT有说谎的倾向。

“在回答需要特定领域专业知识的问题时,ChatGPT可能会捏造事实以给出答案……例如,在法律问题上,ChatGPT可能会发明一些不存在的法律条款来回答问题。此外,当用户提出没有现有答案的问题时,ChatGPT也可能会捏造事实。”

Futurism网站就记录了在媒体网站CNET上发布的、机器生成但充满“愚蠢错误”的实例。此前OpenAI也发布了警告:“ChatGPT有时会写出看似合理但不正确、荒谬的答案。”因此,CNET声称已将机器生成的文章提交给人工审核。

而人工审核的一个问题是,ChatGPT内容看起来逻辑通顺,因此可能会愚弄不了解行业知识的审阅者。

07

思维不发散

人类交流可以通过转移话题而产生间接的含义ChatGPT过于字面化,导致答案有时会忽略实际的语义

研究人员写道:“ChatGPT的回答通常严格集中在给定的问题上,而人类的回答是发散的,很容易转移到其他主题。人类可以根据自己的常识和知识回答问题下隐藏的含义,但ChatGPT仅能基于字面意思给出回答……”

08

过分中立

ChatGPT的输出一般情况下是中立的且信息丰富的,但实际上仍然包含了输出中的偏差,尤其是在涉及法律、医学和技术的问题上,中立是一种不受欢迎的品质。

09

正式有余,幽默不足

ChatGPT无法用轻松的口吻回答问题,也不使用缩写它的回答往往是正式有余,反讽、隐喻和幽默不足人类倾向于用更口语化的方式表达还会使用日常用语和俚语。

10

高风险下需要人工审核

ChatGPT目前仍在训练和改进。因此,OpenAI建议ChatGPT生成的所有内容都先由人工审核为宜。这个建议目的是让人类参与进ChatGPT的训练过程中:“人们应该意识到系统的局限性,并且访问、验证ChatGPT输出所需要的信息——这在高风险领域和代码生成中尤为重要。”

显然,ChatGPT还存在许多问题,使其不适合在无监督的情况下生成内容。



推荐阅读




CYBER RESEARCH INSTITUTE

ChatGPT内容缺陷识别指南:说谎的人工智能?

ChatGPT内容缺陷识别指南:说谎的人工智能?

ChatGPT内容缺陷识别指南:说谎的人工智能?

ChatGPT内容缺陷识别指南:说谎的人工智能?

原文始发于微信公众号(赛博研究院):ChatGPT内容缺陷识别指南:说谎的人工智能?

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年2月16日21:02:41
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   ChatGPT内容缺陷识别指南:说谎的人工智能?http://cn-sec.com/archives/1556289.html

发表评论

匿名网友 填写信息