LLM+EM—基于RGA的暴露面私域知识库构建

2024年1月25日07:16:06评论24 views字数 1090阅读3分38秒阅读模式

背景

通用的基础大模型基本无法满足暴露面管理实际业务需求，主要基于以下两点：
1) 知识的局限性：模型自身的知识完全源于它的训练数据，现有的主流大模型的训练集基本都是基于网络公开的数据，对于一些非公开的或离线的数据是无法获取。
2)数据安全性：对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将私域数据上传第三方平台进行训练。
需要采取私有化部署的方式，通过训练企业私域知识，可以成为企业专属知识库，面向暴露面管理人员提供安全专业领域知识的有效赋能，大力提升暴露面消减效率和准确性。

数据向量化

向量在人工智能中扮演着非常重要的角色，尤其在机器学习和深度学习领域。机器学习、人工智能的全流程其实都是围绕着向量的数学运算。

向量化是一个将文本数据转化为向量矩阵的过程，该过程会直接影响到后续检索的效果。数据向量化一般是一个离线的过程，主要是将私域数据（各类结构化数据与非结构化数据工单、视频、音频等）向量化后构建索引并存入数据库的过程。主要包括：数据提取、文本分割、向量化、数据入库等环节，对暴露面管理运营过程的知识、案例、最佳实践等能力支撑资源进行持续积累，构建大模型数据底座。

向量数据库作为数据底座支持各种人工智能和机器学习，通过多维度数据融合提升数据价值并实现快速、可扩展的数据存取分析挖掘，从而提升模型训练和推断的效率。

LLM+EM—基于RGA的暴露面私域知识库构建

RAG

RAG的架构如图中所示，RAG通过检索获取相关的知识并将其融入Prompt，让大模型能够参考相应的知识从而给出合理回答。RAG的核心理解为“检索+生成”，前者主要是利用向量数据库的高效存储和检索能力，召回目标知识；后者则是利用大模型和Prompt工程，将召回的知识合理利用，生成目标答案。
实际项目中RAG可以通过挂一个向量数据库，再通过embedding 从向量数据库中检索出大模型相应的文本，可以让大模型应用内部知识库。用RAG的方式把私域知识接入到大模型要方便很多。

LLM+EM—基于RGA的暴露面私域知识库构建

效果

良好的人机交互，代替人工传统介入方式，降低对人员的技能依赖；构建企业专属私域知识库，面向运营人员赋能，提升暴露面处置效率和准确性。

”AI+TI”双轮驱动的暴露面管理--ExposureAI，坚持“能力化、自动化、智能化”的理念，聚焦情报驱动的“暴露面管理”平台建设运营，为关键信息基础设施安全保驾护航。

【End】

watcherlab

做数字经济时代的安全守望者

长按扫码可关注

END

watcherlab

做数字经济时代的安全守望者

原文始发于微信公众号（守望者实验室）：“LLM+EM”—基于RGA的暴露面私域知识库构建

左青龙
微信扫一扫

右白虎
微信扫一扫

LLM+EM—基于RGA的暴露面私域知识库构建

美国网络司令部计划向网络防御部队提供联合网络狩猎套件

揭开OSINT的神秘面纱

G.O.S.S.I.P 资源分享 2024-04-30 EXPLOIT.EDUCATION

【AI速读】深度剖析与降低OSINT脆弱性

《上飞机！(1)》

确定风险优先级的最佳方法 - 第 2 部分

VMware安装华为操作系统openEuler

手上3个offer怎么选，深信服的技服、奇安信的安全服务、绿盟的渗透工程师

面试经验分享 | 某普科技网络安全工程师

理解数据

发表评论

在线咨询

微信