rag市场新锐ragflow初测

admin 2024年4月17日13:59:49评论10 views字数 1146阅读3分49秒阅读模式

本文分成两部分,一部分来自于官方的文档总结,一部分是我个人初测的过程和一些看法。

总结

RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎,为各种规模的企业及个人提供一套精简的 RAG 工作流程。

摘要

RAGFlow 以深度文档理解为基础,从各类复杂格式的非结构化数据中提取真知灼见,支持大海捞针测试。提供多种文本模板、文本切片过程可视化、有理有据的答案引用等特点。兼容各类异构数据源,提供全程无忧、自动化的 RAG 工作流。

要点

  1. RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。
  2. 支持从各类复杂格式的非结构化数据中提取真知灼见。
  3. 提供多种文本模板、文本切片过程可视化、有理有据的答案引用等特点。
  4. 兼容各类异构数据源,提供全程无忧、自动化的 RAG 工作流

rag市场新锐ragflow初测

先来看看所谓的深度理解是怎么回事,简单来讲其实还是主要基于ocr的,不过根据各种差异巨大的文档采用了一种产品功能上的创新,通过人工指定文档的类型,减少解析过程的优化难度(主要是布局的差异),最大化的抽取高质量的数据,官方提供了这些模板。

rag市场新锐ragflow初测

rag市场新锐ragflow初测

rag市场新锐ragflow初测

rag市场新锐ragflow初测

rag市场新锐ragflow初测

rag市场新锐ragflow初测

rag市场新锐ragflow初测

rag市场新锐ragflow初测

写的都挺明白的,不用过多解释了,这里其实是一个产品上的权衡,用一部分人工的成本去交换更好的交付效果,当然这里也有略坑的几个点,比如一个知识库只能指定一种语言(英文或者中文),这里似乎和embedding的模型有关,几个在线的模型跨语言embedding都那么拉跨?然后在线模型会有网络和并发的问题,效率不太高。当然也可以换成本地的ollama的embedding模型,ragflow是支持的。

还有几个产品细节

rag市场新锐ragflow初测

召回的测试和更多调节,混合相似度相对于向量相似度效果的确更好,这个之前有一个paper专门讨论了rag单独用向量的局限性。

rag市场新锐ragflow初测

分块的调节更方便了(相对于其他类似产品的功能)

还有一个比较有意思的点,答案中的引用是通过类似于ocr效果给出的,比单独的文字要更精确一些(而非精确)。

目前RAG这块是AGI领域的一个热点,项目层出不穷,但是大部分的开源项目的质量堪忧,哪怕一些商业产品也比较拉跨,玩具级别,在真实的场景中无法真正交付,很多创业公司也选择了这个方向做突破(商业产品),而ragflow在开源这块展示了巨大的潜力,值得尝试。

点击原文跳转到官网

这两天还看到了一个相当有意思的项目Supermemory - Your second brain (dhr.wtf),完全云原生(基于CF的Serverless)的RAG,核心是永远在线(不依赖本地的算力和存储),和浏览器集成(使用无负担),可以白嫖(这个最重要:))~

原文始发于微信公众号(黄师傅的赛博dojo):rag市场新锐ragflow初测

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年4月17日13:59:49
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   rag市场新锐ragflow初测https://cn-sec.com/archives/2666677.html

发表评论

匿名网友 填写信息