LLM+EM—基于RGA的暴露面私域知识库构建

admin 2024年1月25日07:16:06评论24 views字数 1090阅读3分38秒阅读模式

01

#

背景

#

通用的基础大模型基本无法满足暴露面管理实际业务需求,主要基于以下两点:
      1) 知识的局限性:模型自身的知识完全源于它的训练数据,现有的主流大模型的训练集基本都是基于网络公开的数据,对于一些非公开的或离线的数据是无法获取。
     2)数据安全性:对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将私域数据上传第三方平台进行训练。
     需要采取
私有化部署的方式,通过训练企业私域知识,可以成为企业专属知识库,面向暴露面管理人员提供安全专业领域知识的有效赋能,大力提升暴露面消减效率和准确性。

LLM+EM—基于RGA的暴露面私域知识库构建

02

#

数据向量化

#

向量在人工智能中扮演着非常重要的角色,尤其在机器学习和深度学习领域。机器学习、人工智能的全流程其实都是围绕着向量的数学运算。
向量化是一个将文本数据转化为向量矩阵的过程,该过程会直接影响到后续检索的效果。数据向量化一般是一个离线的过程,主要是将私域数据(各类结构化数据与非结构化数据工单、视频、音频等)向量化后构建索引并存入数据库的过程。主要包括:数据提取、文本分割、向量化、数据入库等环节,暴露面管理运营过程的知识、案例、最佳实践等能力支撑资源进行持续积累,构建大模型数据底座。
向量数据库作为数据底座支持各种人工智能和机器学习,通过多维度数据融合提升数据价值并实现快速、可扩展的数据存取分析挖掘,从而提升模型训练和推断的效率。

LLM+EM—基于RGA的暴露面私域知识库构建

03

#     

RAG

#

RAG的架构如图中所示,RAG通过检索获取相关的知识并将其融入Prompt,让大模型能够参考相应的知识从而给出合理回答。RAG的核心理解为“检索+生成”,前者主要是利用向量数据库的高效存储和检索能力,召回目标知识;后者则是利用大模型和Prompt工程,将召回的知识合理利用,生成目标答案。
       实际项目中RAG可以通过挂一个向量数据库再通过embedding 从向量数据库中检索出大模型相应的文本,可以让大模型应用内部知识库。用RAG的方式把私域知识接入到大模型要方便很多。

LLM+EM—基于RGA的暴露面私域知识库构建

04

#

#

良好的人机交互,代替人工传统介入方式,降低对人员的技能依赖;构建企业专属私域知识库,面向运营人员赋能,提升暴露面处置效率和准确性。

”AI+TI”双轮驱动的暴露面管理--ExposureAI,坚持“能力化、自动化、智能化”的理念,聚焦情报驱动的“暴露面管理”平台建设运营,为关键信息基础设施安全保驾护航 。

【End】

LLM+EM—基于RGA的暴露面私域知识库构建
LLM+EM—基于RGA的暴露面私域知识库构建

watcherlab

做数字经济时代的安全守望者

长按扫码可关注

END

LLM+EM—基于RGA的暴露面私域知识库构建

watcherlab

做数字经济时代的安全守望者

原文始发于微信公众号(守望者实验室):“LLM+EM”—基于RGA的暴露面私域知识库构建

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年1月25日07:16:06
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   LLM+EM—基于RGA的暴露面私域知识库构建http://cn-sec.com/archives/2428257.html

发表评论

匿名网友 填写信息