Memoria：基于安全知识的 RAG 系统

2024年1月22日16:54:51评论41 views字数 1384阅读4分36秒阅读模式

Memoria （强记咒）的测试环境已经上线，当前只开通一个主题模块“/APT”。基于全球各安全厂商的 1500份 APT 报告（后续会补充到 3000 篇）生成向量数据，召回阶段做了rerank，最后包了一层调过的本地小模型。微信群作为唯一交互界面，文章最后扫码进群体验。

RAG 现在比较热，这个东西属于你一看就感觉是自己想要的，但再一看细节又感觉不行的东西。有几个问题是我比较在意的。

作为安全产品经理，我就不想要 embedding 这个东西。

embedding 这个东西首先它不准，比如说我想要检索一个“所属欧洲的 APT 组织”，它很可能给我找出来“在欧洲活跃的 APT 组织”……这类的场景很多，RAG几乎不具有可用性。其次，embedding 有个问题是对于安全分析这种比较依赖逻辑推理的知识，分本分割的操作会让文章整体的逻辑被破坏。拿业内比较常见的 1000 字符分割，结果惨不忍睹。2000 字符呢？好点，但不多。

所以，我只想要更大的内容窗口，不想要 embedding。

生态配套也过于粗糙了。

看似LangChain 和 LlamaIndex 都围绕 RAG在框架层面做了生态的建设。但其实也不太能细看，别的不说，板式文档解析就很成问题，典型就是 PDF格式。单列纯文字可能还好点，多列复杂排版，再配点表格、图片什么的……解析出来的就是一坨浆糊。

看来看去，全世界用的都是百度的 paddle库……我期待能有完善的板式解析方案，或者 OCR 方案。

对封装的模型依赖太高。

召回数据用哪个模型封装，对结果的影响很大，而表现好的模型都是云端模型。安全资讯等一些公域信息可能还能用云端模型处理，可是私域信息要是也依赖云端模型处理，很多产品价值的主张就没法成立了。

所以，我想等性能好用的开源模型私有部署。

跟上面三个问题比起来，框架和模型的难配置、难调试、难交付，这种都不算核心问题。技术不成熟，那就再等等呗。但我最近观点又有点变化……

大内容窗口的模型毫无疑问是未来，GPT4 的 preview 模型，已经支持 128k。新一代的 nvidia 计算卡，据说也用统一内存架构，大幅度提升显存容量带来的种种好处里面，提升内容窗口，一定是很重要的一部分。可是，产品总还是要算成本账的，GOAT模型效果固然好，但价钱也贵。综合性价比更高的模型，大概率会有更大的市场。欣喜的是，社区里面针对向量数据的召回覆盖度和召回准确度提升，各种方案也开始丰富起来了。LlamaIndex 一篇博客就把rerank变成了 RAG 的标准范式。而 query 重写、稀疏召回、多路召回……各种架构的组合开始让人看到了一些新的可能性。

关于一些文档和网页处理的基础库，后面虽然可能也不会再更新了，但多模态的模型马上要来了。板式文档的处理未来大概率我们丢多模态模型里就解决了。

综合种种，就感觉技术挑战，应该只是阶段性困难，最终产品大概还是拼运营质量和效率。召回和命中的问题，都可以调试。准确召回但总结不好的，可以调模型、调 prompt。最终还是要拼谁更花心思，谁效率更高。

既然如此那就先行一步，先把业务跑起来。多积攒些运营工具和素材，迎接更好的未来。

Memoria：基于安全知识的 RAG 系统

Memoria，使用方式简单，进群@SpellBot，/APT 作为触发指令。尝试聊聊看会出什么乐子，也可以多提些你的不满和建议，后面我会不断完善。

Memoria：基于安全知识的 RAG 系统

原文始发于微信公众号（无界信安）：Memoria：基于安全知识的 RAG 系统

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Memoria：基于安全知识的 RAG 系统

奇安信 mingdon 明动 burp插件0.2.6 去除时间校验版

SqlMap 的高级用法！

Kali Linux 最佳工具之协议分析工具Yersinia简介与方法

开源高级通话监控模块：为FreePBX - 17

【cobalt strike手册0x04】Listeners和Beacon

T-Reqs：一款基于语法的HTTP漏洞挖掘工具

yakit向日葵远程命令执行检测插件

DetectionLabELK搭建及使用

BloodyAD：一款功能强大的活动目录提权框架

SharpDecryptPwd Source Code

发表评论

在线咨询

微信