rag市场新锐ragflow初测

admin

141442
文章

117
评论

2024年4月17日13:59:49评论111 views字数 1146阅读3分49秒阅读模式

本文分成两部分，一部分来自于官方的文档总结，一部分是我个人初测的过程和一些看法。

总结

RAGFlow 是一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎，为各种规模的企业及个人提供一套精简的 RAG 工作流程。

摘要

RAGFlow 以深度文档理解为基础，从各类复杂格式的非结构化数据中提取真知灼见，支持大海捞针测试。提供多种文本模板、文本切片过程可视化、有理有据的答案引用等特点。兼容各类异构数据源，提供全程无忧、自动化的 RAG 工作流。

要点

RAGFlow 是一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎。
支持从各类复杂格式的非结构化数据中提取真知灼见。
提供多种文本模板、文本切片过程可视化、有理有据的答案引用等特点。
兼容各类异构数据源，提供全程无忧、自动化的 RAG 工作流

rag市场新锐ragflow初测

先来看看所谓的深度理解是怎么回事，简单来讲其实还是主要基于ocr的，不过根据各种差异巨大的文档采用了一种产品功能上的创新，通过人工指定文档的类型，减少解析过程的优化难度（主要是布局的差异），最大化的抽取高质量的数据，官方提供了这些模板。

rag市场新锐ragflow初测

写的都挺明白的，不用过多解释了，这里其实是一个产品上的权衡，用一部分人工的成本去交换更好的交付效果，当然这里也有略坑的几个点，比如一个知识库只能指定一种语言（英文或者中文），这里似乎和embedding的模型有关，几个在线的模型跨语言embedding都那么拉跨？然后在线模型会有网络和并发的问题，效率不太高。当然也可以换成本地的ollama的embedding模型，ragflow是支持的。

还有几个产品细节

rag市场新锐ragflow初测

召回的测试和更多调节，混合相似度相对于向量相似度效果的确更好，这个之前有一个paper专门讨论了rag单独用向量的局限性。

rag市场新锐ragflow初测

分块的调节更方便了（相对于其他类似产品的功能）

还有一个比较有意思的点，答案中的引用是通过类似于ocr效果给出的，比单独的文字要更精确一些（而非精确）。

目前RAG这块是AGI领域的一个热点，项目层出不穷，但是大部分的开源项目的质量堪忧，哪怕一些商业产品也比较拉跨，玩具级别，在真实的场景中无法真正交付，很多创业公司也选择了这个方向做突破（商业产品），而ragflow在开源这块展示了巨大的潜力，值得尝试。

点击原文跳转到官网

这两天还看到了一个相当有意思的项目Supermemory - Your second brain (dhr.wtf)，完全云原生（基于CF的Serverless）的RAG，核心是永远在线（不依赖本地的算力和存储），和浏览器集成（使用无负担），可以白嫖（这个最重要：））~

原文始发于微信公众号（黄师傅的赛博dojo）：rag市场新锐ragflow初测

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

rag市场新锐ragflow初测

本文分成两部分，一部分来自于官方的文档总结，一部分是我个人初测的过程和一些看法。

总结

摘要

要点

最新Kali Linux用户更新失败及解决之道

为何巨额网络安全支出投入还不够？

智慧树下没有我

LVS、Nginx、HAProxy功能对比及组合使用

Springboot配置全局异常通用返回

【戏说我在甲方做安全】一个蜜罐项目，小B成了办公室政治的牺牲品

俄 APT 组织利用0day漏洞和擦除器加强对欧洲的攻击

香港加密货币暗战：当USDT成为洗钱工具的台前与幕后

美国司法部对Coinbase近期的网络攻击展开调查

面试经验分享 | 2025某安全厂商宁波驻场

发表评论

在线咨询

微信