Ragflow知识库的解析过程

2025年6月3日10:33:46评论21 views字数 2911阅读9分42秒阅读模式

Ragflow对知识库导入内容的解析过程十分的漫长，曾多少次都在不断地反复和怀疑中渡过，没有一个教程对它的解析过程进行详细说明，让我十分地郁闷和不解，难道这都不是个问题了，还是只有我这个小白把它当成了个问题。不管哪样，我觉得应该写出来分享给大家，在这个过程中遭遇了什么，高手略过，仅是个记录。

下图这是ragflow的知识库解析记录，当达成这个成功经过了漫长的等待，中途中断了好多次，也不知道怎样才是正确的。这里截取了它的日志记录来了解下它的解析过程，也让我们在此过程中可以放心大胆地等待下去。

一个9.2M的txt文档，经过了长达22:17-23:08，大约50分钟才完成了解析工作。硬件条件：单GPU，笔记本完成的。

一、日志记录下的解析过程

1、任务接收：

22:17:21 Task has been received.

22:17:21：任务已被接收。

2、解析过程：

22:17:29 Page(1~100000001): Start to parse.

22:17:29：开始解析页面（1~100000001）。

22:17:31 Page(1~100000001): Finish parsing.

22:17:31：解析完成。

3、关键词生成：

22:20:33 Page(1~100000001): Start to generate keywords for every chunk ...

22:20:33：开始为每个分块生成关键词。

22:23:36 Page(1~100000001): Keywords generation 271 chunks completed in 183.08s

22:23:36：关键词生成完成，271个分块在183.08秒内完成。

4、问题生成：

22:23:36：开始为每个分块生成问题。

22:23:36 Page(1~100000001): Start to generate questions for every chunk ...

22:25:45 Page(1~100000001): Question generation 271 chunks completed in 129.05s

22:25:45：问题生成完成，271个分块在129.05秒内完成。

22:25:45 Page(1~100000001): Generate 271 chunks

5、嵌入和索引：

22:25:52：嵌入分块（7.16秒）。

22:25:52 Page(1~100000001): Embedding chunks (7.16s)

22:26:18：索引完成（25.38秒），任务完成（536.45秒）。

22:26:18 Page(1~100000001): Indexing done (25.38s). Task done (536.45s)

6、实体提取：

从23:06:45到23:08:21，系统逐步提取每个分块的实体和关系。每个分块的实体提取完成后，记录了节点数、边数和标记数。

23:06:45 Entities extraction of chunk 246 247/271 done, 0 nodes, 0 edges, 16871 tokens.

。。。。。。

23:08:21 Entities extraction of chunk 270 271/271 done, 1 nodes, 0 edges, 4952 tokens.

23:08:21：实体和关系提取完成，总共提取了1个节点，0条边，4225286个标记，耗时2516.01秒。

23:08:21 Entities and relationships extraction done, 1 nodes, 0 edges, 4225286 tokens, 2516.01s.

7、实体和关系合并：

23:08:21：实体合并完成，耗时0.37秒。

23:08:21 Entities merging done, 0.37s.

23:08:22：关系合并完成，耗时0.10秒。

23:08:22 Relationships merging done, 0.10s.

8、子图生成和合并：

23:08:22：为文档生成子图，耗时2516.79秒。

23:08:22 generated subgraph for doc 315f8042065f11f0945f92ce2e96dbb2 in 2516.79 seconds.

23:08:25：将子图合并到全局图，耗时3.03秒。

23:08:25 merging subgraph for doc 315f8042065f11f0945f92ce2e96dbb2 into the global graph done in 3.03 seconds.

9、图解析和Pagerank更新：

23:08:25：识别0个候选对。

23:08:25 Identified 0 candidate pairs

23:08:25：解决0个候选对，0个被选择合并。

23:08:25 Resolved 0 candidate pairs, 0 of them are selected to merge.

23:08:25：图解析移除了0个节点。

23:08:25 Graph resolution removed 0 nodes.

23:08:26：图解析更新了Pagerank。

23:08:26 Graph resolution updated pagerank.

23:08:28：图解析完成，耗时3.22秒。

23:08:28 Graph resolution done in 3.22s.

10、知识图谱完成：

23:08:28：文档的知识图谱处理完成，耗时2524.39秒。

23:08:28 GraphRAG for doc 315f8042065f11f0945f92ce2e96dbb2 done in 2524.39 seconds.

23:08:28 Knowledge Graph done (2524.44s)

上面可以看出，ragflow在解析文档时经过了10个过程，应该非常地清晰明了。

二、ragflow的解析知识库过程

回顾一下，在RAG（Retrieval-Augmented Generation）系统中，解析知识库的过程通常包括以下几个步骤：

1.文件上传：首先，将知识库文件（如文本文件、PDF、HTML等）上传到RAG系统。
2.预处理：系统对上传的文件进行预处理，包括分块、去除噪音、格式转换等。这一步骤的目的是将原始数据转换为适合解析和索引的格式。
3.分块：将大型文件分割成较小的块，以便于后续的解析和索引。分块的数量和大小可以根据需要进行调整。
4.解析：对每个分块进行解析，提取出有用的信息。这可能包括识别文本、提取实体、关系和其他关键信息。
5.索引：将解析后的信息建立索引，以便于快速检索。索引可以是倒排索引、正向索引或其他类型的索引结构。
6.验证和优化：对解析和索引的结果进行验证，确保数据的准确性和完整性。根据需要，可以对解析和索引过程进行优化。
7.启用和存储：将解析和索引后的知识库启用，使其可以在RAG系统中被查询和使用。解析后的数据通常会存储在数据库或搜索引擎中。
8.监控和维护：定期监控知识库的性能和准确性，进行必要的维护和更新，以确保知识库的有效性和时效性。

原文始发于微信公众号（MicroPest）：Ragflow知识库的解析过程

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Ragflow知识库的解析过程

NSFOCUS旧友记王艳《往事值得回味》

信息科技关键风险指标监测（ KRI ）

Splunk系列：Splunk字段提取篇（三）

ubuntu 环境下的 docker 安装

Beyond REST：一种用于全面API漏洞模糊测试的工具APIF

深度揭秘！俄罗斯Sandworm组织BadPilot行动，全球网络遭长期渗透！

在线发布的照片和视频OSINT地理定位指南

网络安全简史（二）：初代病毒的出现

福布斯：人是网络安全的负担也是解决方案

dddd-N0ld项目存在投毒

发表评论

在线咨询

微信