语言模型在外部数据集中的推理应用

admin

143564
文章

118
评论

2024年2月9日01:03:12评论17 views字数 2414阅读8分2秒阅读模式

目前语言模型的应用存在以下两条路线：

围绕语言模型自身的训练优化，涉及从头完成语言模型的预训练、应用收集的数据如行业领域数据完成在基础语言模型上的训练优化等；
围绕语言模型语义推理能力，涉及应用提示工程激发语言模型的推理能力，进而形成解决问题的工具。

为此，文章从开源垂直语言模型的训练优化与语言模型在外部数据中的问答应用两方面进行概述。

01垂直语言模型的训练优化

垂直语言模型采用开源基础语言模型作为基座模型，在收集的行业领域数据中通过全量微调、高效参数微调等方式完成垂直语言模型的定制，进而达到提升语言模型在行业领域的推理应用效果。目前基础语言模型主要采用transformer或其优化的网络结构，在语料中完成模型参数的预训练，且基于所采用网络结构模块的不同，预训练形成的语言模型可分为面向编码结构的语言模型、面向解码结构的语言模型、面向编码-解码结构的语言模型。如图1所示，总结基于不同网络结构模块的语言模型，目前大语言模型基本从解码结构、编码-解码结构中产生。以BERT模型引领的面向编码结构语言模型，其作为掩码语言模型，通过对输入序列中被掩字词的学习预测，形成模型对文本的语义理解能力。与面向非编码结构的语言模型相比，面向编码结构语言模型具有生成能力不足、掩码语言模型训练繁琐等缺陷，同时面向非编码结构的自回归语言模型也可以处理编码结构中掩码任务的处理。因此，transformer中的非编码结构成为大语言模型方案的主流架构设计。

图1 代表性语言模型[1]

面向开源基座模型的行业领域垂直语言模型的定制，涉及开源基座语言模型的选择、行业领域数据收集整理以及垂直语言模型训练优化。如图2所示，展示了目前主要开源的垂直语言模型信息。

图2 部分开源垂直语言模型

基座模型

目前基座模型的候选有清华ChatGLM-6B、Meta的LLaMA系列模型、HuggingFace的Bloom系列模型，以及近期开源的语言模型，如复旦的moss、百川智能的Baichuan-7B等。在选取中，需从语言支持性、模型参数量、跨平台性等维度完成对开源基座模型的综合评估，如LLaMA的词汇表中仅包含几百中文字符，因此其在直接处理中文任务时仍然存在挑战。在选取LLaMA作为基座模型时，为提升对中文的理解和生成能力，可采取扩充词汇表，并在中文语料中对LLaMA模型进行预训练[2]。

垂直定制

目前垂直定制涉及领域数据构建以及模型训练优化，在领域数据构建中，包含采用通用领域数据（包括不同指令类型、不同领域的数据）以提升模型对任务语义理解与处理能力；采用领域数据（包含领域问答、领域指令任务处理等数据）以提升模型对领域知识理解与处理能力。完成领域数据构建后，在垂直语言模型训练优化中，涉及在大规模领域语料中进行预训练以提升语言模型在垂直领域中的基础语义理解能力；在构建的领域数据中进行指令微调训练以提升语言模型对垂直领域任务的执行能力。

02语言模型在外部数据的问答应用

在概述语言模型在外部数据的问答应用时，首先以文章[3]中的增强问答检索能力的语言模型方案展示如何在外部数据中进行语言模型的应用推理。图3方案思路为：在文本语料库中完成带掩码输入文本的语义相似语料提取；所提取的语义相似语料与带掩码输入文本编码至语言模型中，以模型输出完成对掩码信息的预测并作为输入问题的解答。

图3 增强问答检索能力的语言模型[3]

因此，在外部数据中借助语言模型的语义分析能力完成所输入问题的潜在答案的推理分析核心是如何完成外部数据中与输入问题关联语料的提取，其必要性在于语言模型输入长度的限制。为此，核心工作可为如何在外部数据中完成与输入问题文本语义相关的语料数据的提取，以作为输入问题解答的价值信息源。

在完成输入问题文本与外部数据中语料数据相似性评估时，采用Ernie、Bert等预训练语言模型完成语料文本特征的向量化表示，进而通过待评估文本间特征向量的相似性衡量文本间语义的相似性。因此，在外部数据中的语言模型推理应用的流程涉及1.将外部数据的语料进行适应性划分，并完成文本特征向量化；2.将输入问题文本特征向量化，并通过特征向量评估完成外部数据中语义相似的语料提取；3.将提取的相似语料与输入文本嵌入合适的提示输入中，并利用语言模型的推理能力，完成对输入问题的推理分析。以上过程如下图4所示,即langchain-ChatGLM[4]方案流程图。

图4 语言模型在外部数据中推理应用流程[4]

由于外部数据组织形式的不同（涉及领域知识图谱、文本、图片、语音、公开网页等），故而在方案流程环节1中的外部数据处理与特征向量构建等过程有差异。如在若外部数据为领域知识图谱，则外部数据中语义相似语料提取的过程应适应性转变为：提取输入问题文本主题词，并语义一致性映射至领域图谱实体中；完成主题词对应实体的在图谱中的关联知识的查询与提取。若外部数据为pdf等形式的文档语料，则外部数据中语义相似语料提取的过程应适应性转变为：完成文档语料的适当划分，并实现划分后语料信息的特征向量计算与关联存储；完成输入问题特征向量计算，并完成依据特征向量的相似语料信息的提取。

参考资料

1.Unifying Large Language Models and Knowledge Graphs: A Roadmap.2023.

2.Efficient and Effective Text Encoding for Chinese Llama and Alpaca.2023.

3.REALM: Retrieval-Augmented Language Model Pre-Training.2020.

4. langchain-ChatGLM: https://github.com/imClumsyPanda/langchain-ChatGLM.

信息网络安全公安部重点实验室

原文始发于微信公众号（信息网络安全公安部重点实验室）：语言模型在外部数据集中的推理应用

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

语言模型在外部数据集中的推理应用

Splunk系列：Splunk搜索分析篇（四）

编写信息安全规划的几点经验

东北大学 | Untangle: 多层 Web 服务器指纹识别

浅谈模糊测试基础技术——引导机制

JumpServer堡垒机部署与运营

身份威胁检测与响应（ITDR）详解

美国2015-2025十年秘密行动全景解析

老旧系统安全防护：现代化改造策略

解放海南岛战役决策指挥的真实记叙

企业安全做好项目管理的关键

发表评论

在线咨询

微信