大模型LLM在数据领域应用的探索

admin 2024年2月14日23:29:39评论13 views字数 1856阅读6分11秒阅读模式

前言

随着以ChatGPT为代表的智能问答机器人的横空出世,大模型在各个行业和业务场景下的应用需求也随即爆发。大模型成为企业数据体系中不可或缺的一部分,为企业数字化、智能化的发展提供良好的机遇和动力。本文从以下四个方面介绍大模型在数据领域应用的思路:

  • 利用Embedding优化语义检索
  • 搭建领域知识库,提供私域问答
  • Text2SQL代码生成,结果可视化
  • 数据集探索性数据分析EDA

1. 利用Embedding优化语义检索

对于搜索问题,我们可以利用GPT模型做些什么优化呢?对于自研搜索功能,往往是基于ElasticSearch这个开源技术来实现,而ES底层的搜索原理则是先分词,然后再进行倒排索引。

大模型LLM在数据领域应用的探索

试想一下场景,我们在使用数据地图或指标查询时,指标预存信息为“欠款金额”,而我们搜索的指标为“未还款金额”,虽然语义上很接近,但是ES的分词词典中并没有“未还款”,匹配不上,会导致我们搜索不到指标信息。为了提升搜索效果,通常会给ES配置同义词表,把预存的指标信息和开发、业务人员常使用的指标名称做同义词配置,提高查询效果。

基于Embedding进行语义检索的过程大致如下:

大模型LLM在数据领域应用的探索
1. 对预存指标信息生成语义向量(Embedding),存入向量数据库作为基准;
2. 将用户搜索指标信息向量化后,检索向量数据库;
3. 计算两者之间的向量距离(如余弦相似度距离),找出与用户搜索词最近的几个向量。
那最近的几个向量,其实就是语义和搜索词相似的,而并不一定需要相同的关键词。
2. 搭建领域知识库,提供私域问答

通常我们遇到以下场景会考虑搭建本地知识库:

1. 我们所需的行业知识比较专业,大模型不能确保准确、高效的提供;
2. 在利用大模型能力的过程中,我们内部的数据跟环境不能对外暴露,需完全可控,避免任何的数据隐私泄露以及安全风险。
该需求比较普遍,通常采用Embedding + 向量检索引擎 + LLM 的方式,处理过程流程如下:
大模型LLM在数据领域应用的探索

处理的过程包括:

1. 先将原始文档中的文本内容全部提取出来。然后根据语义切块,切成多个chunk,可以理解为可以完整表达一段意思的文本段落。在这个过程中还可以额外做一些元数据抽取,敏感信息检测等行为。

2. 将这些Chunk都丢给embedding模型,来求取这些chunk的embedding。

3. 将embedding和原始chunk一起存入到向量数据库中。

问题提炼:这个部分是可选的,之所以存在是因为有些问题是需要依赖于上下文的。因为用户问的新问题可能没办法让LLM理解这个用户的意图。

向量检索:独立问题求取embedding这个功能会在text2vec模型中进行。在获得embedding之后就可以通过这个embedding来搜索已经事先存储在向量数据库中的数据。

推理求解:在获得最相关的知识之后,我们就可以让LLM基于最相关的知识和独立问题来进行求解推理,得到最终的答案。   
3. Text2SQL代码生成,结果可视化

大模型可以根据自然语言输入快速生成SQL代码片段,并通过可视化的方式展示结果,从而协助数据人员的日常工作。这减少了编写复杂查询所花费的时间,因此可以投入更多时间来理解业务和分析查询结果,以此从数据结果中获取决策支持。

可以通过大模型创建一个 SQL 查询来获取一组特定的数据,例如:“显示 2022 年每月的平均收入。”

大模型可以将其转换为 SQL 查询,如下:

SELECT AVG(revenue) AS average_revenue, MONTH(date) AS monthFROM salesWHERE YEAR(date) = 2022GROUP BY MONTH(date);

集成可视化功能后的效果图如下:

大模型LLM在数据领域应用的探索

4. 数据集探索性数据分析EDA

数据分析师在分析之前往往需要花费大量时间准备和清理数据。利用大模型可以提供数据预处理技术,如处理缺失值、处理异常值、变量相关性分析以及解决用户数据质量问题的建议。通过数据预处理建议,有助于简化数据准备过程,并确保分析质量。该能力属于大模型的通用基础能力。

总结

本文简要介绍了大模型LLM在数据领域应用的思路,具体方案会在后续专题中逐步展开。大模型的快速发展为企业数据体系带来了新机遇,企业思考在数据治理、数据安全、数据整合、数据分析与挖掘以及业务应用等方面,通过大模型应用来提高生产力。随着OpenAI开发者大会召开,ChatGPT使用成本也逐步降低,并且国产大模型百花齐放,模型效果逐渐提高,助力大模型应用在各行各业中大放异彩。

原文始发于微信公众号(数据思考笔记):大模型LLM在数据领域应用的探索

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年2月14日23:29:39
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   大模型LLM在数据领域应用的探索http://cn-sec.com/archives/2207016.html

发表评论

匿名网友 填写信息