【论文】生成式人工智能对社交机器人的影响与治理对策研究

admin

140521
文章

117
评论

2024年3月27日08:39:26评论144 views字数 15235阅读50分47秒阅读模式

【论文】生成式人工智能对社交机器人的影响与治理对策研究

文章来源：《情报杂志》

网络首发时间：2024-03-25 12:57:51

网络首发地址：

https://link.cnki.net/urlid/61.1167.G3.20240321.1758.002

摘要:

【研究目的】生成式人工智能使作为社交媒体舆情传播核心的社交机器人具有更加强大的舆论操纵能力,且随着生成式人工智能的快速发展,社交机器人与人类在社交媒体中的活动更加难以区分,隐匿性更强,危害性更大, 需要提早研究社交机器人的治理策略,以维护网络舆情安全和国家安全。

【研究方法】结合生成式人工智能的特点, 剖析了其对社交机器人操纵舆情能力的影响,采取“技术管控技术”的理念,提出基于生成式人工智能的社交机器人情报分析建模思路,在模型中增加向量数据库和本体推理,增强了模型的相似性检索、语义理解、多模态数据分析、动态数据更新以及少样本学习能力。

【研究结论】通过将“大语言模型”和“知识图谱”进行深度融合,利用知识图谱中的知识减少大语言模型的“幻觉问题”。同时,利用大语言模型完善和补全知识图谱,增强了对社交媒体情报信息的检索和应用能力。在社交迷雾演化全生命周期提高了对社交媒体舆情,特别是社交机器人的监测识别、感知预警、追踪溯源和研判管控能力。

关键词:生成式人工智能;知识图谱;社交机器人;信息迷雾;向量数据库

中图分类号:G354

【论文】生成式人工智能对社交机器人的影响与治理对策研究

0 引言

社交机器人是一种可以在社交媒体平台中自主运行、自动发布信息并进行互动的智能程序。作为一种效能强大的信息武器,社交机器人在算法认知战中可以投放“信息炸弹”:它能在5分钟内生产和发布一万条不同的原创信息,并同时进行大规模的转发与点赞。美西方各国政府频繁利用社交媒体平台和互联网进行计算宣传,社交机器人被广泛用于制造和传播具有欺骗性、误导性、煽动性的信息迷雾,试图控制传播渠道、强化舆论导向等方式实现网民价值对立和情感动员,干扰战略议程、阻止真相传播,影响目标受众和潜在受众的思维与认知,危害目标国家的国家安全。

在社交媒体上,算法构建了所谓的 “ 信息茧房”,使得客观事实在塑造舆论方面的影响力远不如诉诸情感和个人信仰,情感被高度“武器化”在后真相时代,各方力量以情感为武器进行战争博弈,推动了战争范式的转变。例如俄乌战争就是超越实体接触,在网络空间中对垒,是“社交媒体时代的第一场战争”。乌克兰由于获得了美西方网络社交媒体技术的支援占据优势地位,社交机器人在战争宣传策略中发挥关键作用。

近年来,人工智能快速发展,特别是伴随 OpenAI 公司研发的 ChatGPT-4 的问世,使得社交机器人的人格属性更明显,编写和发布类人虚假信息更容易,推荐受众群体更精准,传播速度更快、范围更广,部署机器人数量和规模更庞大,导致信息主体失真,扰乱了情报来源,造成的舆论影响和产生的安全威胁更严重。因此,我国已进入国家安全治理的新阶段,亟需利用人工智能技术优势对社交机器人给予全面治理,破解美西方利用社交机器人“制造同意”,干扰目标国政府对舆情的判断,改变受众认知,借“民主自由”和“人权”等幌子,以“虚假民主”的形式操纵和分裂社会,意图促使目标国发生“颜色革命”的险恶政治目的。

本文提出将知识图谱和生成式人工智能联合应用建模的思路,能够优化社交媒体情报搜集和分析工作,深度挖掘碎片化潜在情报线索中的巨大价值,提供更加准确、可靠的知识驱动的情报分析,对有效管控社交机器人起到参考作用。

1 生成式人工智能对社交机器人操纵舆情的影响

1.1生成式人工智能的发展

生成式人工智能(Generative AI)可以自动创建文本、图像、音频、代码、语音、视频等多种模式的原始内容,代替原来需要专门技能人才依靠专业知识才能完成的任务。

人工智能研究实验室(Open AI)研发的生成式预训练语言模型 GPT ( Generative Pre - trained Transformer)自2017年首次提出后,经过持续研究和创新性探索,GPT不断地升级迭代,2023年3月14日 GPT4. 0正式发布,与GPT-3比较其具有更加强大的图片识别能力、编程能力和创作能力,以及更强的阅读理解能力和更安全的输出内容,进而带来更高效的知识生成和应用能力。

2023年11月15日,Open AI 首席执行官Sam altman在 X 平台上表示,由于每周有一亿人使用 ChatGPT 服务,使用量远超于预期,导致服务器严重过载,出现大规模故障,将暂时暂停新的ChatGPT Plus 注册。另外,根据 Open AI统计的数据,已经有来自全球各地的200万开发者正在使用Open AI的 API(应用程序接口),92% 的《财富》世界500强公司正在使用 Open AI 的产品搭建服务,覆盖金融服务、法律应用和教育等多个行业。

1.2生成式人工智能的工作阶段

一般情况,生成式人工智能的工作主要包括七个阶段:数据收集、数据预处理、模型训练、模型选择、生成数据、评估生成结果和模型调整。

数据收集:收集大量高质量、丰富且多样化的数据用来训练生成式AI模型,以便模型更好地理解不同模式和规律,训练数据的格式主要包括:文本、数字、图像、视频或音频。

数据预处理:数据预处理是将原始数据转换为模型可用格式的过程,包括将图像转换为像素矩阵、将文本转换为数字等。

模型训练:需要通过大量的训练数据来训练生成式AI模型。在训练过程中,生成式AI模型会学习输入数据的概率分布和结构,这些数据可以是文本、图像、音频或视频等。

模型选择:模型训练完成后,需要选择合适的模型来生成新的数据。不同类型的数据需要选择不同的模型来生成,比如自然语言文本可以使用RNN或 LSTM模型来生成,图像可以使用GAN、VAE或扩散模型来生成。

生成数据:一旦选择好合适的模型,就可以使用该模型来生成新的数据。生成新数据的方式通常是随机采样或条件采样。随机采样是指从模型学习到的数据分布中随机抽样生成新的数据,而条件采样是指在输入一些条件的情况下,从模型学习到的条件分布中采样生成新的数据。

评估生成结果:生成的新数据需要经过评估来判断其是否符合预期。评估生成结果的质量是一个开放性的问题,它可以基于客观指标进行,也可以依赖人类主观感受进行,比如自然语言文本可以基于语法正确性、连贯性、意义合理性等指标进行评估,图像可以基于视觉质量、真实感等指标进行评估。

模型调整:根据生成结果的评估,可以对模型进行调整和优化,从而提高生成结果的质量。调整模型的方式通常包括增加训练数据、调整模型参数、优化模型结构等方法。

1. 3 生成式人工智能对社交机器人舆论操控能力的影响

以 GPT 为代表的生成式人工智能模型补强了社交机器人两个方面的短板:对话能力和内容检索生成能力,使得社交机器人成为一种更加高效强大的工具。社交机器人舆情风险由单个个体风险演变为多个个体形成的简单组织系统性风险,在生成式人工智能大模型和复杂人机交互应用的背景下,级联互联效应又加大了跨系统性风险。生成式人工智能对社交机器人能力的提升主要表现在以下三个方面:

一是提升了社交机器人集群内容生成的创新能力。社交机器人集群利用生成式人工智能的“涌现”能力,体现出单个机器人自身所不具备的特性,通过训练社交机器人集群,赋予社交机器人强大的创造能力, 避免以往发文同质化严重,重复发布和转发相同内容推文的现象,社交机器人能够以不同的人社,不同的立场发布、转发、评论、点赞以及聊天等人机互动行为方式,营造虚假人气,推送大量政治消息、传播虚假或者垃圾信息,制造烟雾混淆公众视听,试图影响社交媒体舆论。

二是提升了社交机器人多模态数据关联生成能力。社交机器人传统的宣传方式是以文字为主,生成式人工智能赋能的社交机器人拥有图片、音频和视频等多模态信息的生成、伪造、合成能力,能够根据上下文情景融合多模态数据,依托数据挖掘、分析策略从海量多源多模态异构信息中得到高价值情报,提高多元化和细粒度的跨模态数据关联能力,基于预训练基础模型生成多模态内容。

三是提升了社交机器人的计算宣传能力。生成式人工智能能够分析多源巨量数据,对受众目标的个人爱好、文化水平、生活习惯、经济状况、政治倾向、媒体素养等进行精准画像,全方位评估目标对象被宣传内容影响的概率以及程度。根据个人画像分析目标受众感兴趣的主题,编排个性化宣传内容;依据目标受众在其活动圈层中的影响力制定投放顺序和投放强度;依据宣传效果反馈信息,优化社交机器人计算宣传策略, 实现更加精准有效的投放;对观点、认知、偏好、媒体素养特征相似的受众群体进行分类,为构建各类“信息茧房”做好铺垫。

1. 4 生成式人工智能赋能下社交机器人治理面临的挑战

生成式人工智能加持下的社交机器人与以往比较,其传播虚假信息数量会大幅增加,潜伏期会更长, 隐蔽性会更强,编写误导性内容会更容易和便捷,传播内容的差异化会更明显,对受众情绪和认知、社会舆论和秩序以及国家形象和国际影响力等方面影响会更加深刻。

特别是,技术的政治嵌入性、算法的政治预测性、数据的政治应用性将改变政治生态,社交机器人操纵者在大模型建构中可以通过数据污染、算法黑箱等形式能够干扰国家政治决策。可见,社交机器人给信息安全、数据安全、意识形态安全以及国家安全带来的危害和风险日益严重,亟需对其进行监测和管控。但由于生成式人工智能技术的快速发展与不断地迭代升级,智能的网络安全和密码技术也将帮助操纵者加固系统、强化信息边界,使得获取高价值情报信息更加困难,增加了对抗成本和情报收集难度,社交机器人治理工作面临严峻的挑战。

1. 4. 1 生成内容不可预测且虚假信息识别难度加大

生成式人工智能除了在文本自动生成方面取得了重大进展,在图像领域,已被用于生成与真实照片难以区分的图像;在音频领域,生成式人工智能能够以普通话、地方话,甚至利用口语生成音频;在视频领域,生成式人工智能获取用户提示后,构建复杂算法模型创建符合用户需求的视频,其中3D场景、人物和对象都是完全虚构的。

生成式人工智能技术的持续迭代升级, 社交机器人采用自然语言处理、深度学习和机器学习能够更加容易地编造虚假信息、深度伪造图片和合成音视频,内容与真实人类用户相似度更高,这些都加大了对社交机器人发布的虚假信息鉴伪工作的难度。

生成式人工智能通常被视为黑盒模型,因为其内部的复杂算法和不可预测性使得很难推测模型将如何响应特定的输入。因此,生成式人工智能自身幻觉 (Hallucination)风险生成的似是而非的不符合现实的误导性信息,降低了舆情传播的准确性和可靠性。

同时,为了获取受众的吸引力赚取流量或者为了实现特定的政治目的,社交机器人倾向于传播负面、容易产生争议、具有煽动性的话题,而且带有偏见性的训练数据还会加剧社交媒体信息迷雾的生成,撕裂公众原有的社会共识,给国家安全带来危害。

1. 4. 2 社交机器人行为分析以及媒体信息追踪溯源难度加大

在生成式人工智能技术应用在社交机器人之前, 其行为特征具有一定的可识别性。比如以社交媒体涉华新冠病毒议题为例,通过对比社交机器人和人类用户在发文主题上的特征和策略,能够查明社交机器人对社交媒体用户意识形态的引导和操纵的政治化行为方式。

以国际社交平台推特上社交机器人对中国新冠疫苗的议题参与问题,分析其内容特征、形象管理策略以及与人类互动特征,能够研究社交机器人的参与模式,利用深度学习模型整合社交机器人的行为特点、习惯特征、行为态度,推理其隐性意图。

但是,社交机器人利用生成式人工智能来自人类反馈的强化学习能力进行训练后,更新参数以产生越来越高质量的回答,并且会承认错误、修复自己的答案,具有重新思考的能力,指令人工智能发送消息时有一个 0. 3 秒/ 字符的延迟,输出时犯拼写、语法和大小写错误,这样就更像人类打字的过程。社交机器人更加近似真实人类的行为使得对其行为识别和意图推理分析更为艰难。

由于生成式人工智能提升了社交机器人的自然语言理解和处理能力,在对用户画像的基础上使其能够更加充分的掌握用户的意图,以更接近人类的思维方式响应社交媒体用户的需求,与用户进行转发、评价、回复和点赞等互动,使得社交机器人与人类的行为差别更小,对社交机器人的行为分析和识别变得更加困难。

由于训练数据数量巨大且来源十分广泛,社交机器人会选择性、针对性的投放虚假信息,经过网站的交叉引用或不同类型社交媒体领袖KOL( Key Opinion Leader)的相互转发,容易混淆信息来源,增加信源查证的难度 ,通过传播难以溯源的“半”可新信息操纵和破坏情报源,给准确追踪和验证内容的起源带来极大的挑战。

1.4.3 破解“信息茧房”的难度加大

人工智能技术给应对和破解“信息茧房”工作带来的挑战主要体现在三个方面:

一是生成式人工智能减少了社交机器人开发过程中的训练数据需求,缩短了开发周期,降低了维护和升级成本,更容易开发和部署社交机器人,也使得大规模利用和部署社交机器人成为可能。

庞大数量的社交机器人以集体方式与大众、政治组织、媒体和其他社交机器人共同实施话语互动实践,通过组织化传播对舆论生态中的话语权进行争夺,共同推送相同内容信息以阻碍不同观点的流通,从而引导和掌控受众的态度和意见。

二是社交机器人依托以ChatGPT为代表的预训练基础模型,展现出越来越成熟的时序逻辑梳理、策略规划和生成能力,快速生成包括投放对象、投放内容、投放顺序等要素在内的社交媒体宣传方案,通过人机协同机制迭代完善生成更明智、更有效的投送策略,实现优化后的精准投送。通过使“投喂”内容与用户精确匹配形成“信息茧房”,让用户看到他们想看的内容,造成用户的思想和观点趋于固化或极化。

三是社交机器人通过违规收集的用户隐私信息, 了解用户关注和偏好,使用算法推荐技术精准投放虚假信息,使用户陷入信息茧房效应,出现反复搜索同一话题的刻板行为。

大部分战略认知地带的争夺发生在灰色地带,即介于极易受骗者分布的黑色地带和极难欺骗者分布的白色地带之间的区域,所处灰色地带的人群容易被标题党和热点信息所吸引,面对社交媒体海量复杂信息时为了减轻认知负担,自动降低了对事实的思考分辨能力,给幕后操纵叙事者提供了机会。同时,社交机器人凭借日渐提升的集群网络涌现能力、意见领袖制造能力以及虚假民主营造能力,使得“信息茧房”变得更加封闭和坚实。

2 生成式人工智能社交机器人分析模型的构建思路和框架结构

2.1 知识图谱应用于社交机器人情报分析模型的优势

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

它通常建立在现有数据源之上,结合结构化和非结构化信息以网络形式将复杂的数据或者元数据连接在一起。与关系数据模型不同,知识图谱模型被构建为概念或实体及其之间关系的集合。知识图谱在社交机器人情报分析中具有以下优势:

一是分析数据强关联。知识图谱允许存储和处理高度相关的数据且对其进行迭代优化。可以用来分析社交机器人所采取的自组织方式、依靠自身的行为逻辑和自己所处的环境与邻近的同类进行局部交互的方式 ;分析其以小组或者机器人网络形式,利用社交媒体制造信息迷雾的行动规律、演化过程、演化机理, 进一步研究信息迷雾的甄别、感知方法以及应对策略。

二是分析数据多样化。知识图谱能够搜集和集成来自不同数据源的多种格式数据。对于表格、文本、数据库等结构化数据,可以直接用来构建知识图谱;对于图片、音频和视频等非结构化数据,则需要信息抽取后再进行知识图谱的构建;同样,对于介于二者之间的半结构化数据,也需要进行信息抽取才能够建立知识图谱。可见,知识图谱满足生成式人工智能背景下社交机器人采用图片、音视频多模态生成舆情信息的分析需求,可以基于特征模板、核函数的监督学习、深度学习的方法完成社交机器人实体识别、与其他机器人或者人类互动关系、特征属性抽取等任务;能够依托数据挖掘、机器学习、神经网络等人工智能技术,从海量异构数据中分析推理出高价值线索。

三是分析模型动态化。知识图谱提供了一个灵活度高和适应性强的算法模型,用来适应数据的历史分析和演变推理。知识图谱通过使用框架表示法基于历史案例和历史数据,对社交机器人在社会安全事件演化不同阶段的要素指标进行分析,掌握舆情大数据中社交机器人集群的组织形式、人机互动的传播策略、精准推送方式和操纵舆论的政治目的等风险因素,分析这些重要信息和关键数据的变化规律和发展趋势; 在舆情事件初期事态感知的基础上,对社会群体极化、社会对立和群体撕裂,线上线下迁移蔓延、舆情危机、社会失序等演化风险进行演变推理和预测分析。

四是语义理解便捷化。知识图谱支持将情报数据的语义理解和分析嵌入到数据自身中,从实体、概念、关系的知识维度进行全方位解析。

首先,对社交媒体舆情内容进行实体类(人类、社交机器人、社交机器人领袖、社交机器人集群)标注。然后,完成对目标缺失关系的判断和目标缺失属性的补全,通过关联关系以及知识图谱获取对应信息;

其次,结合上下文和知识, 把实体映射到细粒度概念,动态进行实体的概念化,使其符合社交媒体舆情环境下的知识理解;

最后,理解实体之间的关系,对特定情报主体或目标进行深度挖掘且构建知识网络。

五是情报分析可视化。知识图谱提供了直观的可视化,使情报分析人员能够更加直观地从数据中获取有价值信息,对社交机器人网络结构和舆论操纵策略进行分析,明确标识社交机器人意见领袖、宣传机器人、跟随机器人、垃圾邮件机器人以及与它们互动紧密的其他社交媒体账号。知识图谱可以动态展现社交机器人的角色扮演情况,便于分析其在整个社交网络中的所处的层级,判断其影响力和重要性,还能够直观体现物理世界的人和机器人自主形成的合作、协调、竞争关系,以及对推动舆情发展的贡献度。

2. 2 生成式人工智能社交机器人分析模型的构建思路

虽然知识图谱在数据获取、信息抽取、知识融合和知识加工方面具有优势,能够将多源数据融合处理,增强对数据结构的管理,提升数据驱动决策的能力,但仅使用知识图谱,由于过于依赖现有知识,会使得数据更新不及时,导致决策缺乏灵活性和创新性。

相反,单独使用生成式人工智能,虽然能够激发思维的创新,增强对各种场景的迁移能力,但可能会导致无结构、发散式的思维,由于缺少验证环节使得输出结果陷入无序和潜在战略错位的境地。

而将二者结合起来构建生成式人工智能模型,有效整合技术资源,协同情报数据的结构化管理与情报工作方法的创新探索,能够开拓情报工作新的战略前沿,发现潜在的价值线索。

知识图谱以其结构化的数据表示形式,通过提供上下文、验证输出和减少偏差来增强生成式人工智能的性能,从而与情报工作目标保持一致。同时,生成式人工智能通过填补知识空白和预测未来状态来丰富知识图谱,从而提高知识图谱的实用性、准确性和相关性。知识图谱和生成式人工智能之间的协同作用改变了社交媒体舆情分析工作原有的思路和方法,对推动情报工作变革起到重要作用。

基于知识图谱构建生成式人工智能社交机器人分析模型主要包括以下五个步骤:

一是确定分析模型工作的任务目标。自动化生成社交机器人情报分析工作相关内容,主要包括对舆情线索的挖掘和扩展、对潜在风险的评估和管理以及对未来发展趋势的分析和研判。

二是收集和准备训练数据。主要是对以社交机器人为重点的社交媒体数据的收集、整理、清洗、分类、甄别等工作,也包括对特定数据的脱敏处理以及具有偏见及特殊属性数据的移除。

三是构建知识图谱。主要是定义知识图谱中的实体和关系,完全从零构建社交媒体知识图谱需要花费大量的时间,生成式人工智能可以通过基于知识图谱的现有结构和内容生成新的节点和关系来自动填补知识图谱中的空白,有助于丰富知识图谱使其更加全面, 也能够大幅提高知识图谱构建和分析效率。

四是训练人工智能算法模型。利用神经网络、深度学习、增量学习、自然语言处理和迁移学习等技术, 对生成式人工智能模型进行反复训练,并且持续自动化调整参数以优化性能。

为了使训练数据的可靠性更高,一方面,建立社交媒体知识图谱数据审核机制,由专家对数据的完整性、准确性、专业性等方面进行全面审查、修改和完善;

另一方面,在利用生成式人工智能填补知识图谱数据,从社交媒体文本中提取实体和关系的实例时,给定知识图谱中实体的本体和原始模式, 本体论(Ontology)中的哲学概念“本体”于1980年被引入到人工智能领域用来刻画知识,本体是共享概念模型的明确的形式化规范说明,该定义体现了本体的四层含义:概念模型、明确、形式化、共享。

本体是实体存在形式的描述,往往表述为一组概念定义和概念之间的层级关系,本体框架形成树状结构。在生成式人工智能模型中引入本体推理,能够保证对社交机器人按照行为模式完成准确分类,提高社交媒体中隐含的上下文信息理解和推理能力。

五是整合知识图谱和生成式人工智能。知识图谱扩展了人工智能社交媒体上下文数据的来源,生成式人工智能通过调用知识图谱数据检索接口,能够通过对多源信息的交叉验证和综合判断社交媒体数据来源的真实性,保证输出结果的客观性和准确性,基于社交媒体知识图谱历史数据和最新数据,逻辑自洽快速发现社交媒体机器人行为规律和异常数据,准确预测未来状态,对社交媒体情报规划和决策具有重要意义。

2. 3 生成式人工智能社交机器人分析模型的框架结构

知识图谱的特点是结构化的知识表示,其明确定义了实体(通常表示概念或对象) 及其之间的关系。利用知识图谱,可以实现语义理解,推断隐含的知识, 获取具有可靠性且可操作性的分析结论。

另一方面, 生成式人工智能经过数据训练,能够生成文本,图像、视频或其他形式的新数据内容。将这两个强大的技术合并到一个知识丰富的人工智能系统中,知识图谱就可以一致而准确地影响和指导生成式人工智能算法的行为,而无需专门的特殊训练。不仅可以使得生成结果更加精确,还可以使得生成的内容更加丰富。

知识图谱与生成式人工智能相互结合的模型构建思路,同时兼具了知识图谱检索的高准确度和人工智能生成的高流畅性两个方面的优势。人工智能模型首先从知识图谱中检索相关信息,然后使用检索到的信息作为上下文来指导人工智能生成更加准确可靠的输出响应,生成式人工智能社交机器人分析模型的框架结构如图1所示。

【论文】生成式人工智能对社交机器人的影响与治理对策研究

为了针对社交媒体领域产生更加准确的情报分析输出结果,需要进行算法模型的监督微调,通过增加社交媒体专门文档模块,特别是以社交机器人作为重点要素用来扩展知识图谱中的结构化知识覆盖范围。同时,为了使人工智能模型能够理解知识图谱的叙述形式,需要将知识图谱中的结构化信息转换成自然语言。例如包含社交机器人、社交媒体、信息迷雾和国家安全风险四个实体以及它们之间的关系的知识图谱片段, 可以转化成自然语言:社交机器人在社交媒体中通过制造和传播信息迷雾导致国家安全风险。转换过程如图 2 所示。

【论文】生成式人工智能对社交机器人的影响与治理对策研究

虽然,知识图谱可视化地描述了实体之间的关系, 对上下文语义进行理解,但为了进一步提高查询速度和知识覆盖面,通过增加额外的社交媒体向量数据库, 实现在社交机器人实体之间进行更加细微的比较,生成潜在隐藏的分析结果。

向量数据库的核心技术是使用数值向量表示不同形式的实体,在生成类人文本、图像和音视频时,向量数据库能够满足生成式人工智能模型快速比较和检索相关嵌入的要求,在自然语言处图2将知识图谱结构化语言转化为自然语言处理过程中将单词或句子转换为捕获语义的向量,同时确保生成的文本保持上下文含义,有效提高嵌入数据的精细度,甚至在预训练期间就能区分社交媒体中的真实数据和虚假数据。

另一方面,通过设计表示社交媒体舆情知识的本体,用于概述社交媒体实体、实体的属性以及实体之间的关系,增强的语义推理的能力,借助动态本体论的思想,针对发生变化的多源数据采用更加敏捷的技术手段,允许在信息融合各阶段对本体进行调整,从而在知识图谱中明确的数据之外挖掘出更有价值的情报。同时,本体提供对不断更新的社交媒体舆情综合知识的访问,从而提升了生成式人工智能模型分析的时效性,便于获取更深层次和更加精准的上下文语义分析。增加了向量数据库和本体推理的生成式人工智能社交机器人分析模型框架结构如图3所示。

【论文】生成式人工智能对社交机器人的影响与治理对策研究

3 生成式人工智能社交机器人分析模型在社交媒体舆情治理中的应用

生成式人工智能对社交媒体舆情的影响具有明显的技术两面性。

一方面,使得社交机器人的部署成本大幅降低且数量成倍增长,发布内容自动化且更加近似人类的个性化特点,舆情传播形成网络规模且速度快、范围广,一旦被域外势力操纵对目标国家的安全会造成更加严重的威胁。

另一方面,生成式人工智能为整个情报工作流程赋能,在数据到决策的转化中发挥重要作用,大语言模型能够实现情报信息的精确搜集与筛选,情报数据的自主分类与内容加工处理,情报内容模式识别与语义分析、推理和预测的人机协同化分析,情报产品智能化分发与传递以及可视化决策的智慧化应用。通过灵活创建模拟现实的应用场景,有助于情报风险管理和决策,给社交媒体治理开辟了新的途径。

3. 1 社交媒体信息迷雾的感知和预警

通过生成式人工智能模型,以社交机器人偏向发布负面和具有煽动性内容为特征,对疑似信息迷雾的相关主题利用主动式专题搜索引擎在知识图谱中进行重点检索,且结合历史开源情报信息甄别社交媒体中发布内容的真实性。由于知识图谱能够提供可靠的、结构化的信息源来控制人工智能生成过程,可以作为验证生成式人工智能模型输出的参考点,如果生成的内容与知识图谱中的信息相矛盾,则可以对其进行标记并且同步对疑似信息迷雾进行快速定位以供二次审查。

向量数据库使系统能够根据语义相似性理解和检索内容,其专注于查询信息的潜在含义而不仅仅是精确匹配单词,便于推理和分析社交机器人发布内容背后的政治意图。

知识图谱和向量数据库都支持社交媒体知识的实时更新,生成式人工智能可以根据上下文内容完善和补充知识内容,向量数据库允许对数据进行动态更改, 弥补了独立的矢量索引需要完整的重新索引过程来合并新数据,导致耗时且计算成本高的缺点。因此,能够及时捕捉到社交媒体中异常舆情信息,在信息迷雾的萌芽初期做好舆情风险感知和预警工作,降低生成误导性或有害内容的风险。

3. 2 社交机器人网络舆论构建策略的推演分析

当前,社交媒体的舆论生态正从完全由“人”主导变为“人+社交机器人”共生的状态。有研究表明, 社交机器人只需占讨论者的5% -10%就能改变公众意见,并使其传播的观点最终成为主导意见。

可见,社交机器人在社交媒体中话语权的重要性,通过搭建仿真平台模拟社交媒体舆论传播环境,利用生成式人工智能模型,将社交机器人模拟成信息迷雾发布者、传播者、跟随者、扩散者、受众等多种身份,分别在信息迷雾萌芽初期、扩散中期、爆发阶段以及衰退阶段,对其实施虚假信息的伪造、偏见性意识形态的渗透、“信息茧房”的构建、澄清数据的污染等舆论构建行为进行仿真推演分析。利用对抗生成网络对社交媒体舆情事件进行学习,生成社交媒体事件数据集来扩充训练数据规模以提高模型的泛化性能。

通过受众信息搜索、浏览、关注、点赞、评论和转发等表达方式,可以综合测算受众注意力时长,且形成结构化的数据用于分析公众的情绪、态度、认知和行为。

通过对受众的情感倾向、立场和观点进行分类,细粒度地提取蕴藏在多模态信息中的情感特征。

通过对信息迷雾的传播路径和速度,对受众认知和情感的塑造,线上舆情与线下活动的交互活跃度等方面的评估,分析其发展趋势,对社会情绪、媒体舆论、社会秩序、权威机构和政府的信任度、国家安全等方面可能造成的影响及程度。

依据历史事件案例库从措施库中推荐应对措施,对措施执行的效果给予研判和审核评估,构建社交媒体舆情对抗仿真推演模型,依据推演结果数据完成复盘分析,调整和优化应对策略。

3. 3 社交机器人的定位和追踪溯源

生成式人工智能能够提高社交媒体信息的透明度和解释性,针对生成人工智能的黑箱不透明问题,知识图谱通过跟踪结构化框架内数据的起源、历史和转换, 使生成式人工智能的算法模型更加透明和可解释。

每个实体、相互之间的关系和信息片段都用元数据标记, 元数据会记录其来源和期间某个时刻所做的任何更改。这种可追溯性允许生成人工智能验证数据的真实性、可靠性和上下文,确保知识图谱中表示信息的准确性和可信度,充分掌握社交机器人个体特征、集群特征和行为习惯,从而使得生成式人工智能分析模型能够对社交机器人发布的虚假信息进行追踪溯源,清晰地分析其传播路径。

向量数据库允许在存储的矢量之间进行快速相似性搜索,能够查清以社交机器人意见领袖为核心的机器人集群以及层级结构关系,以及与社交机器人互动频繁的网络水军、受意识形态重塑的受众等网络舆情参与实体账户信息。

向量数据库是按比例构建可用于扩展的大型数据集,确保可以处理大量社交媒体数据而不影响性能,向量数据库对于大规模部署的社交媒体机器人及互动对象账号具有较强的分析能力。

3. 4 网络社交媒体跨语言信息的理解与处理

基于文本的生成式人工智能对语言的依赖度很强,对跨语言的识别和分析能力提出了很高的要求。生成式人工智能善于将与训练语言数据类似的语句生成连贯和准确的内容,但是一旦遇到在词语、语法、句型等方面与训练数据集明显不同的情况时,其性能就会显著降低,从而导致无法理解和准确相应输入信息, 出现翻译不准确,甚至翻译错误的情况。

但是,生成式人工智能模型中知识图谱不依赖于大模型特定的语言或术语,而是基于对知识图谱中结构化知识符号的普遍理解,这种内在的设计抽象出多种语言知识的本质, 使其具有广泛的可解释性,并且确保无论语言背景如何,其核心见解和关系都是可访问的,从而赋予了生成式人工智能模型对社交机器人的较强跨语言障碍分析能力。

3. 5 社交机器人智能化分析的准确性和时效性

知识图谱和向量数据库可以提高情报工作中生成式人工智能的准确性、可靠性、时效性和透明度,有助于减轻其许多技术和监管风险,最大限度地提高情报分析质量和效益。

一方面,对于社交媒体及机器人的分析、研判和决策,知识图谱提供了结构化和有意义的可视化表示形式,使生成式人工智能模型能够更好地理解上下文,可以帮助识别和减轻生成人工智能模型训练数据中的偏差。通过以结构化的方式表示社交媒体知识,更容易感知带有偏见的信息且及时发出预警,同时保证所提供的分析结果的公正性,避免主观经验及其他因素导致不公平的研判结论,最终执行确定性的输出来减少生成式人工智能幻觉带来的偏见性风险。

同时,向量数据库具有少样本学习能力,使用有限的数据对人工智能进行训练,向量数据库通过自身强大的矢量索引在图像、视频、音频等复杂的高维矢量数据之间进行快速相似性搜索,当模型仅接触少量向量(例如:跟随者社交机器人)时,它可以通过识别这些向量之间的相似性和关系来迅速推断出更广泛的此类社交机器人概念,从而能够从庞大的社交媒体数据集中快速检索最相似的实体。

另一方面,生成式人工智能算法模型训练数据的新鲜度决定了输出结果的时效性,社交向量数据库媒体数据更新较快,生成式人工智能难以跟上最新的信息和趋势,从而导致内容过时、不准确,甚至具有误导性或不适用于当前环境。知识图谱能够较好的解决生成式人工智能缺乏时效性的问题,当社交媒体中一个新的事实出现时,知识图谱会及时利用这个新的信息完成更新,而不是重新训练整个人工智能模型,向量数据库也能够支持实时数据更新,允许对数据进行动态更改,从而及时掌握社交媒体的动态变化情况,确保对社交媒体情报分析的时效性。

3. 6 社交媒体舆情治理社交机器人的训练

随着互联网和人工智能技术的发展,社交机器人在社交媒体舆情中发挥的作用将越来越重要。未来, 社交舆情操纵者利用人工智能技术,只需输入带有特定政治目的偏见提示信息和预设社交机器人行为模式后,社交机器人将自动参与到社交媒体信息迷雾演化的全过程中。

首先,社交机器人在社交媒体中挖掘相关热点话题、搜集语料、构建语料库,选取目标受众且进行分类;然后,社交机器人自动生成误导性信息,由机器人意见领袖带领机器人集群按照舆论操控策略对信息迷雾实施快速、精准推送;其次,为了使传播内容更加吸引受众的关注,将文本和图片或者音视频等信息融合搭配,调动受众情感、错误引导意识形态,以负面立场改变公众认知,甚至把线上舆情事件延伸到线下发展成为暴力事件,意图对目标国发动“ 颜色革命”。

可见,社交机器人在社交媒体舆情制造和传播过程中将处于更加核心的地位,只有对社交机器人进行有力管控,才能更好地维护国家安全、网络安全和信息安全。

“技术”管控“技术”是治理社交机器人的一种有效应对思路,一是利用蜜罐诱饵手段,即利用生成式人工智能模型将社交机器人伪装成真实社交媒体用户,诱使恶意行为者对看似有攻击价值的虚假对象发动攻击,从而发现制造和传播信息迷雾的社交机器人及其整体网络。

接下来,分析其舆情操纵策略和隐藏在背后的势力组织和政治目的,构建负面社交人画像库、标签库和舆情事件库,掌握社交机器人舆情操纵手段和行为规律;利用向量数据库分析与负面社交机器人发文偏好一致且关系密切的社交媒体账号, 分析这些账号注册信息和发文特征,提取兴趣特征向量,系统性扫描向量数据库以查找与这些兴趣向量相似度较高的内容矢量,从而利用情报扩线的分析方法找出机器人集群账号进行自主归类。

二是训练用于治理社交媒体舆情的社交机器人集群,培养正面引导舆情的社交机器人意见领袖,在模拟训练过程中,按照信息迷雾的演化全周期,赋予机器人不同的身份角色,增强舆情治理机器人集群相互协作和集体作战的能力, 通过转发、评论、回复、点赞等形式提高正面话题标签的传播范围和关注度,规范议程设置防止被负面社交机器人利用垃圾信息干扰和淹没,评估个体、组织等中微观实体以及政治、经济、文化等宏观层面对于正面舆情说服力的影响效果,持续改进优化治理社交机器人集群舆情治理策略。

同时,要注意减弱“逆火效应”, 避免辟谣或说服行为导致更加相信谣言或更加坚信原有观点。

三是利用生成式人工智能算法及时甄别信息迷雾,实现对社交媒体中“错误” “撕裂” “对立”舆情的准确定位,利用治理社交机器人集群通过官方渠道发布真实情况,鼓励社交媒体平台和广大公众积极转发,开辟真实信息传播交互通道;披露负面社交机器人账号及其传播误导性信息的方法和手段,有效阻断信息迷雾的持续扩散,破解“信息茧房”,引导受众回归正确意识形态,以典型案例剖析的形式切实提高受众的媒体素养。

4 结语

基于全新预训练基础模型,以ChatGPT为典型代表的生成式人工智能将引起自互联网之后的新一轮技术革命,借助智能算法导致社交媒体中深度伪造的音视频和虚假信息泛滥问题值得高度警惕和关注。

人工智能模型仍然在快速迭代发展,谷歌公司2023年12月6日宣布推出一种名为 Gemini 的新人工智能模型,声称该模型在一系列智力测试中的表现优于OpenAI 的GPT-4 模型和“专家级”人类。Gemini 已针对不同的应用创建了3个版本,分别是Nano、Pro和Ultra。Ultra超过了所有现有AI模型的能力,这是人工智能首次在测试中击败人类,也是现有模型中得分最高的。谷歌无人车之父、Google X 实验室创始人、Sage AI Labs 首席执行官巴斯蒂安·特伦( Sebastian Thrun) 在题为《人工智能新时代》(The New Era of Artificial Intelligence) 的主题演讲中,就新一轮人工智能所引发的革命,首次发出全新的重磅预警:在未来三年内,人工智能系统在所有领域中都能与智力工作者媲美,这意味着将重新定义社会的行为和运作方式。

生成式人工智能赋能的社交机器人对目标受众、传播路径和传播内容的计算宣传能力将会更强,通过人机协同形式煽动种族主义、仇外心理、厌恶女性等极端情绪,发表大量政治评论,塑造主流民意代表。通过大量转发反对者使用的关键词标签,在目标公众中制造分裂与仇恨、歪曲事实、操纵舆论、霸占话语权, 从而对目标国家的形象、国际地位造成严重的负面影响。

美西方大力发展人工智能情报技术,利用新兴技术优势制造信息迷雾削弱我国情报研判效果,使得我国面临的国家安全威胁将愈发严峻,我国与美西方的情报斗争也将愈发深入和激烈。

可以预见,基于人工智能的社交机器人对媒介生态和政治格局将会产生更加深远的影响,需要在网络社交媒体舆情风险的变化趋势,社交媒体舆情的策略构建,社交机器人个性化生成内容的鉴别以及舆情传播模式、传播效果等方面深入开展研究,提早谋划治理方法和应对策略。

本文提出的生成式人工智能社交机器人分析模型能够提升社交媒体信息迷雾的感知和预警能力,有助于挖掘社交媒体数据中隐藏的社交机器人行为模式和规律,提供对其更深层次的分析和理解能力,增强对社交机器人追踪溯源以及对幕后势力操纵社交机器人进行舆情攻击的分析、抵御和反制能力。

可视化技术支撑决策者能够更加直观和全面地理解数据,细粒度实体、事理关系分析图谱为制定关键决策提供有力保证。但是,本文仅对生成知识人工智能模型进行了理论方面的研究,下一步还要在具体算法实现和实证应用等方面开展研究,探索人工智能与数据安全、算法安全、网络安全、意识形态安全和国家安全共生共存的良性发展路径。

参考文献省略

作者简介:

邵雷,男,1981 年生,博士,教授,四级调研员,研究方向:公安情报,信息化侦查; 石峰,男,1972 年生,硕士,副教授,研究方向: 开源情报,信息化侦查。

长按识别下面的二维码可加入星球

里面已有万余篇资料可供下载

越早加入越便宜

续费五折优惠

【论文】生成式人工智能对社交机器人的影响与治理对策研究

原文始发于微信公众号（丁爸情报分析师的工具箱）：【论文】生成式人工智能对社交机器人的影响与治理对策研究

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【论文】生成式人工智能对社交机器人的影响与治理对策研究

答疑 | edge浏览器查看浏览器Cookie

网络安全行业，技术氛围已不再如往昔繁荣

摩尔多瓦警方跨国破案！荷兰科研机构遭4.5亿天价勒索的黑客终落网

摩尔多瓦警方逮捕了一名涉嫌参与勒索软件攻击荷兰企业的45岁外籍男子

解锁Ubuntu高效部署！自动安装配置文件YAML全解析

印度约70%电网瘫痪的集体群嗨尴尬了谁？

网安牛马眼里的暗网是否真的那么可怕？

电商诈骗平台漏洞挖掘实录：从供应链后台到数据泄露的破局之路

windows 上使用 crontab

【密码学】基于编码的密码学学习笔记(五) 线性码

发表评论

在线咨询

微信