本文分成两部分,一部分来自于官方的文档总结,一部分是我个人初测的过程和一些看法。
总结
摘要
要点
-
RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。 -
支持从各类复杂格式的非结构化数据中提取真知灼见。 -
提供多种文本模板、文本切片过程可视化、有理有据的答案引用等特点。 -
兼容各类异构数据源,提供全程无忧、自动化的 RAG 工作流
先来看看所谓的深度理解是怎么回事,简单来讲其实还是主要基于ocr的,不过根据各种差异巨大的文档采用了一种产品功能上的创新,通过人工指定文档的类型,减少解析过程的优化难度(主要是布局的差异),最大化的抽取高质量的数据,官方提供了这些模板。
写的都挺明白的,不用过多解释了,这里其实是一个产品上的权衡,用一部分人工的成本去交换更好的交付效果,当然这里也有略坑的几个点,比如一个知识库只能指定一种语言(英文或者中文),这里似乎和embedding的模型有关,几个在线的模型跨语言embedding都那么拉跨?然后在线模型会有网络和并发的问题,效率不太高。当然也可以换成本地的ollama的embedding模型,ragflow是支持的。
还有几个产品细节
召回的测试和更多调节,混合相似度相对于向量相似度效果的确更好,这个之前有一个paper专门讨论了rag单独用向量的局限性。
分块的调节更方便了(相对于其他类似产品的功能)
还有一个比较有意思的点,答案中的引用是通过类似于ocr效果给出的,比单独的文字要更精确一些(而非精确)。
目前RAG这块是AGI领域的一个热点,项目层出不穷,但是大部分的开源项目的质量堪忧,哪怕一些商业产品也比较拉跨,玩具级别,在真实的场景中无法真正交付,很多创业公司也选择了这个方向做突破(商业产品),而ragflow在开源这块展示了巨大的潜力,值得尝试。
点击原文跳转到官网
这两天还看到了一个相当有意思的项目Supermemory - Your second brain (dhr.wtf),完全云原生(基于CF的Serverless)的RAG,核心是永远在线(不依赖本地的算力和存储),和浏览器集成(使用无负担),可以白嫖(这个最重要:))~
原文始发于微信公众号(黄师傅的赛博dojo):rag市场新锐ragflow初测
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论