Memoria:基于安全知识的 RAG 系统

admin 2024年1月22日16:54:51评论24 views字数 1384阅读4分36秒阅读模式

Memoria (强记咒)的测试环境已经上线,当前只开通一个主题模块“/APT”。基于全球各安全厂商的 1500份 APT 报告(后续会补充到 3000 篇)生成向量数据,召回阶段做了rerank,最后包了一层调过的本地小模型。微信群作为唯一交互界面,文章最后扫码进群体验。

RAG 现在比较热,这个东西属于你一看就感觉是自己想要的,但再一看细节又感觉不行的东西。有几个问题是我比较在意的。

  1. 作为安全产品经理,我就不想要 embedding 这个东西。

embedding 这个东西首先它不准,比如说我想要检索一个“所属欧洲的 APT 组织”,它很可能给我找出来“在欧洲活跃的 APT 组织”……这类的场景很多,RAG几乎不具有可用性。其次,embedding 有个问题是对于安全分析这种比较依赖逻辑推理的知识,分本分割的操作会让文章整体的逻辑被破坏。拿业内比较常见的 1000 字符分割,结果惨不忍睹。2000 字符呢?好点,但不多。

所以,我只想要更大的内容窗口,不想要 embedding。

  1. 生态配套也过于粗糙了。

看似LangChain 和 LlamaIndex 都围绕 RAG在框架层面做了生态的建设。但其实也不太能细看,别的不说,板式文档解析就很成问题,典型就是 PDF格式。单列纯文字可能还好点,多列复杂排版,再配点表格、图片什么的……解析出来的就是一坨浆糊。

看来看去,全世界用的都是百度的 paddle库……我期待能有完善的板式解析方案,或者 OCR 方案。

  1. 对封装的模型依赖太高。

召回数据用哪个模型封装,对结果的影响很大,而表现好的模型都是云端模型。安全资讯等一些公域信息可能还能用云端模型处理,可是私域信息要是也依赖云端模型处理,很多产品价值的主张就没法成立了。

所以,我想等性能好用的开源模型私有部署。

跟上面三个问题比起来,框架和模型的难配置、难调试、难交付,这种都不算核心问题。技术不成熟,那就再等等呗。但我最近观点又有点变化……

大内容窗口的模型毫无疑问是未来,GPT4 的 preview 模型,已经支持 128k。新一代的 nvidia 计算卡,据说也用统一内存架构,大幅度提升显存容量带来的种种好处里面,提升内容窗口,一定是很重要的一部分。可是,产品总还是要算成本账的,GOAT模型效果固然好,但价钱也贵。综合性价比更高的模型,大概率会有更大的市场。欣喜的是,社区里面针对向量数据的召回覆盖度和召回准确度提升,各种方案也开始丰富起来了。LlamaIndex 一篇博客就把rerank变成了 RAG 的标准范式。而 query 重写、稀疏召回、多路召回……各种架构的组合开始让人看到了一些新的可能性。

关于一些文档和网页处理的基础库,后面虽然可能也不会再更新了,但多模态的模型马上要来了。板式文档的处理未来大概率我们丢多模态模型里就解决了。

综合种种,就感觉技术挑战,应该只是阶段性困难,最终产品大概还是拼运营质量和效率。召回和命中的问题,都可以调试。准确召回但总结不好的,可以调模型、调 prompt。最终还是要拼谁更花心思,谁效率更高。

既然如此那就先行一步,先把业务跑起来。多积攒些运营工具和素材,迎接更好的未来。

Memoria:基于安全知识的 RAG 系统

Memoria,使用方式简单,进群@SpellBot,/APT 作为触发指令。尝试聊聊看会出什么乐子,也可以多提些你的不满和建议,后面我会不断完善。

Memoria:基于安全知识的 RAG 系统

原文始发于微信公众号(无界信安):Memoria:基于安全知识的 RAG 系统

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年1月22日16:54:51
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   Memoria:基于安全知识的 RAG 系统https://cn-sec.com/archives/2418472.html

发表评论

匿名网友 填写信息