1、任务接收:
22:17:21 Task has been received.
22:17:21:任务已被接收。
2、解析过程:
22:17:29 Page(1~100000001): Start to parse.
22:17:29:开始解析页面(1~100000001)。
22:17:31 Page(1~100000001): Finish parsing.
22:17:31:解析完成。
3、关键词生成:
22:20:33 Page(1~100000001): Start to generate keywords for every chunk ...
22:20:33:开始为每个分块生成关键词。
22:23:36 Page(1~100000001): Keywords generation 271 chunks completed in 183.08s
22:23:36:关键词生成完成,271个分块在183.08秒内完成。
4、问题生成:
22:23:36:开始为每个分块生成问题。
22:23:36 Page(1~100000001): Start to generate questions for every chunk ...
22:25:45 Page(1~100000001): Question generation 271 chunks completed in 129.05s
22:25:45:问题生成完成,271个分块在129.05秒内完成。
22:25:45 Page(1~100000001): Generate 271 chunks
5、嵌入和索引:
22:25:52:嵌入分块(7.16秒)。
22:25:52 Page(1~100000001): Embedding chunks (7.16s)
22:26:18:索引完成(25.38秒),任务完成(536.45秒)。
22:26:18 Page(1~100000001): Indexing done (25.38s). Task done (536.45s)
6、实体提取:
从23:06:45到23:08:21,系统逐步提取每个分块的实体和关系。每个分块的实体提取完成后,记录了节点数、边数和标记数。
23:06:45 Entities extraction of chunk 246 247/271 done, 0 nodes, 0 edges, 16871 tokens.
。。。。。。
23:08:21 Entities extraction of chunk 270 271/271 done, 1 nodes, 0 edges, 4952 tokens.
23:08:21:实体和关系提取完成,总共提取了1个节点,0条边,4225286个标记,耗时2516.01秒。
23:08:21 Entities and relationships extraction done, 1 nodes, 0 edges, 4225286 tokens, 2516.01s.
7、实体和关系合并:
23:08:21:实体合并完成,耗时0.37秒。
23:08:21 Entities merging done, 0.37s.
23:08:22:关系合并完成,耗时0.10秒。
23:08:22 Relationships merging done, 0.10s.
8、子图生成和合并:
23:08:22:为文档生成子图,耗时2516.79秒。
23:08:22 generated subgraph for doc 315f8042065f11f0945f92ce2e96dbb2 in 2516.79 seconds.
23:08:25:将子图合并到全局图,耗时3.03秒。
23:08:25 merging subgraph for doc 315f8042065f11f0945f92ce2e96dbb2 into the global graph done in 3.03 seconds.
9、图解析和Pagerank更新:
23:08:25:识别0个候选对。
23:08:25 Identified 0 candidate pairs
23:08:25:解决0个候选对,0个被选择合并。
23:08:25 Resolved 0 candidate pairs, 0 of them are selected to merge.
23:08:25:图解析移除了0个节点。
23:08:25 Graph resolution removed 0 nodes.
23:08:26:图解析更新了Pagerank。
23:08:26 Graph resolution updated pagerank.
23:08:28:图解析完成,耗时3.22秒。
23:08:28 Graph resolution done in 3.22s.
10、知识图谱完成:
23:08:28:文档的知识图谱处理完成,耗时2524.39秒。
23:08:28 GraphRAG for doc 315f8042065f11f0945f92ce2e96dbb2 done in 2524.39 seconds.
23:08:28 Knowledge Graph done (2524.44s)
上面可以看出,ragflow在解析文档时经过了10个过程,应该非常地清晰明了。
二、ragflow的解析知识库过程
回顾一下,在RAG(Retrieval-Augmented Generation)系统中,解析知识库的过程通常包括以下几个步骤:
- 1.文件上传:首先,将知识库文件(如文本文件、PDF、HTML等)上传到RAG系统。
- 2.预处理:系统对上传的文件进行预处理,包括分块、去除噪音、格式转换等。这一步骤的目的是将原始数据转换为适合解析和索引的格式。
- 3.分块:将大型文件分割成较小的块,以便于后续的解析和索引。分块的数量和大小可以根据需要进行调整。
- 4.解析:对每个分块进行解析,提取出有用的信息。这可能包括识别文本、提取实体、关系和其他关键信息。
- 5.索引:将解析后的信息建立索引,以便于快速检索。索引可以是倒排索引、正向索引或其他类型的索引结构。
- 6.验证和优化:对解析和索引的结果进行验证,确保数据的准确性和完整性。根据需要,可以对解析和索引过程进行优化。
- 7.启用和存储:将解析和索引后的知识库启用,使其可以在RAG系统中被查询和使用。解析后的数据通常会存储在数据库或搜索引擎中。
- 8.监控和维护:定期监控知识库的性能和准确性,进行必要的维护和更新,以确保知识库的有效性和时效性。
原文始发于微信公众号(MicroPest):Ragflow知识库的解析过程
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论