AI+BI | 浅谈大模型技术如何助力BI3.0的发展

admin 2025年2月10日13:08:04评论65 views字数 5825阅读19分25秒阅读模式

随着各行业数字化转型逐步进入深水区,数据已成为支撑企业战略决策的关键资产。商务智能(BI)作为一种最常用的数据分析工具,能够助力企业从数据中精确提取有价值的信息,进而提升企业的决策能力。然而,随着数据类型日益复杂、数据量呈爆发式增长,企业数据分析类任务愈发多样,赋能对象的需求也愈发多元化,传统的商务智能工具面临着使用门槛高、分析效率低、人工投入大等挑战。随着大语言模型(LLM)技术的快速发展,其在BI领域的应用已成为必然趋势,推动着BI2.0向BI3.0快速演进。AI+BI的融合发展将助力企业以更低的成本和更高的效率获得更有价值的洞察,从而推动更加精准的业务决策。

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

随着大语言模型(LLM)技术的快速发展,其在数据领域的应用已成为必然趋势。作为将数据转化为业务价值的关键环节,数据分析正在成为大模型应用落地的重点方向。如何使AI+BI融合发展,催生出大模型时代下的创新应用,并融入业务实践中成为各方关注的问题。本文将从系统架构、核心技术、标准化能力要求及产品评测观察等方面对大模型智能数据分析系统发展现状及未来趋势进行探讨。

大模型+数据分析系统架构

大模型智能数据分析系统主要包括基础设施层、数据接入层、数据工程层、模型服务层、数据分析展示层等。以下详细描述了系统架构的各个组成部分及其功能模块。

基础设施层是整个系统运行的底层支撑,提供计算、存储和网络资源,其设计对系统性能与扩展性具有决定性影响。此层应配备高性能计算资源,同时采用分布式存储架构以应对多模态数据存储需求。在部署策略上,企业可以根据需求灵活选择云端、本地或混合部署模式,以实现数据安全与计算性能的最佳平衡。

多源数据接入层负责从不同的数据源收集各种类型的数据,包括结构化、半结构化和非结构化数据。该层次能够处理企业内部外部的多种数据来源,如传统的关系型数据库、非关系型数据库、文件系统以及实时数据流等,为后续数据工程做准备。

数据工程层是系统中处理数据的核心环节,负责对接入的数据进行清洗、转换和准备,为后续数据分析和模型微调做准备。该层的主要功能包括执行ETL(提取、转换、加载)流程,将多源数据规范化为统一格式。此外,还需支持数据标注、特征工程、数据集划分等相关处理,为大语言模型的微调提供高质量的数据集。

模型服务层是系统的智能核心,负责基座模型的接入、管理和场景化适配及其相关功能。该层通过接入预训练的基座模型(如GPT、BERT等),为系统提供自然语言处理、多模数据处理、代码生成等核心能力。同时,该层还需支持大模型的微调、提示词工程、检索增强生成(RAG)、智能体搭建等模型场景化适配相关能力,以适应企业的特定需求和业务场景,确保模型在不同领域中的准确性和有效性。

数据分析展示层主要负责数据分析结果的处理和可视化展示。数据分析部分需支持利用大模型、领域小模型和高级算法协同,进行数据分析和洞察,并自动生成决策建议。可视化展示部分则要求能够将分析结果转换为图表、仪表盘和其他图形界面,使得用户可以直观地理解数据。同时,还需通过PC端、移动端、大屏或嵌入其他内部系统的方式进行承接,完成整个数据智能分析流程。

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

核心技术

在基于大语言模型(如 GPT、ChatGPT)进行自然语言对话式数据分析时,Text2SQL和 Text2DSL是两种重要的技术实现方式,下面将结合企业实践情况,大致分析两种技术方案的核心区别。

  Text2SQL是指通过自然语言生成 SQL 查询语句,以便用户可以通过自然语言和数据库交互。它的目标是将用户的提问(自然语言)直接转化为SQL 语句,并查询数据库以返回正确结果。

  Text2DSL 是指通过自然语言生成特定领域的编程语言(Domain-Specific Language, DSL),用于解决特定任务或分析需求。在BI领域,通常将自然语言同底层数据集中抽象出的指标、维度和过滤条件等已预先构建好的配置化参数进行匹配,再基于这些参数输出分析结果。

在实际使用场景中,针对用户问题“请帮我查询过去三个月内销售额最高的产品类别”,Text2SQL和Text2DSL的不同工作模式如下:

2.1.理解与映射阶段

Text2SQL

◆  理解重点:直接聚焦于将自然语言中的时间(过去三个月)、目标(销售额最高)、对象(产品类别)等元素对应到SQL的语法结构和数据库字段。例如,要确定“过去三个月”对应的日期字段筛选条件,“销售额”对应的数据库中的销售金额字段,“产品类别”对应的分类字段。为了提升模型在特定业务场景SQL生成准确率,针对企业内部特定术语,目前普遍采用RAG外挂知识库方式,提升大模型对于用户问题的理解能力。

◆  映射方式:基于预训练模型对SQL语法、数据库模式的学习及外挂知识库的补充,将自然语言问题转换为SQL语句的逻辑结构。可能涉及到对复杂语义关系的解析,如多表连接(如果销售额数据涉及多个相关表)在SQL中的表示。

Text2DSL

◆  理解重点:除了识别基本元素,更侧重于将这些元素映射到预定义的指标层。这里的指标层是对业务数据的抽象,例如将“销售额”视为一个特定的业务指标,它可能包含多种计算逻辑(如是否包含折扣后的金额等)。

◆  映射方式:根据业务规则和指标定义,把自然语言问题转化为DSL表达式。这种表达式更侧重于业务逻辑的表达,而不是直接的SQL语法结构。

2.2.查询生成阶段

Text2SQL

生成结果:直接输出SQL语句,例如:

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

特点:SQL语句是通用的数据库查询语言,与具体的数据库管理系统紧密相关,需要遵循严格的SQL语法规则;在较为模糊的查询场景中,SQL生成准确率很难保证。

Text2DSL

生成结果:生成的是领域特定语言(DSL)的表达式,例如:

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

特点:DSL是根据特定业务领域设计的,更具针对性,不需要像SQL那样严格遵循通用的数据库语法,更注重业务逻辑的表达。

2.3.执行与结果处理阶段

Text2SQL

◆  执行过程:生成的SQL语句直接在数据库管理系统中执行,数据库引擎负责解析和执行查询操作,涉及到数据的检索、聚合、排序等操作。

◆  结果处理:结果以数据库查询结果的格式返回,可能需要进一步处理(如格式化)才能呈现给用户。

Text2DSL

◆  执行过程:首先需要将DSL表达式转换为可执行的操作,这可能涉及到中间层的转换逻辑,将DSL转换为SQL或者其他执行逻辑。例如,中间层根据“GET_HIGHEST_SALES_CATEGORY”这个DSL表达式,构建出相应的SQL查询或者调用特定的业务逻辑函数。

◆  结果处理:由于DSL更侧重于业务逻辑,在结果处理上可能更灵活,可以根据业务需求进行定制化的结果展示和解释。

2.4.灵活性与扩展性

Text2SQL

◆  灵活性:对于不同的数据库结构和复杂的查询需求,需要不断调整SQL语句的生成逻辑。如果要适应新的数据库模式或者业务规则变化,可能需要对整个转换模型进行重新训练或者调整。

◆  扩展性:在跨数据库系统或者处理非常特殊的业务逻辑时,可能会受到SQL语法和数据库功能的限制。

Text2DSL

◆  灵活性:由于是基于业务指标层构建的,对于业务规则的调整和新的业务指标的添加具有较好的适应性,但前期指标库的构建成本较高。例如,如果业务中新增了一种计算销售额的方式,只需要在指标层进行调整即可。

◆  扩展性:更容易在不同的业务场景中进行扩展,只要定义好新的DSL表达式和对应的业务逻辑即可。

2.5.性能对比

Text2SQL

◆  企业级数据查询中,宽表可能包含大量字段,这会显著增加输入 Prompt 和输出 SQL 语句的复杂度,从而影响大模型的响应速度。响应时间过长(例如超过3秒)会严重影响用户体验,甚至导致用户流失。

Text2DSL

◆  在数据准备阶段已经预先搭建了符合业务场景的指标库,取数计算过程中只需从指标库中抽取合适的指标进行简单计算即可,大部分场景中性能指标表现较好。

2.6适用场景

两种方案都有其适用场景和限制,选择最合适的方案需要综合考虑业务需求、BI基础能力、实现成本和用户体验。

◆  Text2SQL:适合没有特定的复杂业务分析要求,需要高度灵活性和可扩展性的标准化数据分析场景,如:平台级BI工具。

◆  Text2DSL:适合业务场景明确,产品已建立成熟的数据资产(例如完善的指标体系和数据服务API)且分析深度可控的情况,如:企业内部系统或垂直业务软件系统的BI工具。

标准化能力建设

为确保智能数据分析系统建设的先进性、安全性以及可持续发展,2023年11月中国信通院联合业界50余家企业的100余位专家,共同研制完成了《大模型驱动的智能数据分析工具技术要求》标准,标准包含数据准备能力、大模型智能分析能力、智能交互能力、分享协作能力、集成部署能力、安全管理能力等六大能力域,18个能力子域,54个能力项,目前已有数巅科技、浙江移动、网易数帆、科大讯飞、蚂蚁集团、华为云、腾讯云、瓴羊quick bi、观远、数势科技、联通软研、腾讯云等十余家企业完成评测。

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

评测观察

为了能够更直观地展示智能数据分析工具发现现状,本文对参与测试的9家企业测试情况进行统计分析。

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

4.1 数据准备能力

数据准备能力测试包括数据收集、清洗、预处理等环节,旨在评估企业在处理原始数据方面的能力。应测项总数为7,必选项为3。企业得分最高为7分,代表了 100% 的完成度,表明该企业已完全具备数据准备能力的全部测试要求。

平均得分为4.3分,完成率为62%。这一占比表明大多数企业在数据准备能力上表现较为均衡,虽然基础功能普遍掌握,但部分企业仍有提升数据准备流程的空间,以达到更高效的数据处理水平。

4.2 大模型智能分析能力

大模型智能分析能力的测试旨在评估企业基于大模型进行高级数据分析的能力。应测项为17,必选项为4。最高得分为15分,占比 88%,显示出部分企业在大模型智能分析能力方面的突出表现。

平均得分为7.9分,完成率为 46%。这一数据表明,尽管少数企业在大模型智能分析能力上表现出色,但整体上企业在这一能力项上的表现不够理想。将近一半的应测项未被多数企业实现,反映了在大模型技术应用中还存在显著的提升空间。

4.3 智能交互能力

智能交互能力评估的是企业产品在用户界面和交互体验上的智能化程度,应测项为10,必选项为4。最高得分为9分,完成率 90%,表明部分企业的智能交互能力接近满分,具备较强的交互设计和实现能力。

平均得分为6分,完成率 60%,整体来看,企业在智能交互能力上的表现尚可,但仍有40%的能力项未能被大部分企业实现。这表明企业在提升用户交互体验方面仍有较大改进空间。

4.4 分享协作能力

分享协作能力测试企业在团队合作、信息共享和协同工作方面的能力,应测项为11,必选项为8。最高得分为10分,完成率 91%,表明部分企业在分享协作能力上几乎达到了满分水平,具备成熟的协作功能。

平均得分为8.6分,完成率 78%,说明大多数企业在分享协作能力上的表现较为强劲。这可能是由于协作功能对于企业实际业务应用的重要性较高,促使企业在开发中优先考虑此功能。

4.5 集成部署能力

集成部署能力测试了企业产品与其他系统集成和部署的灵活性和兼容性,应测项为5,必选项为1。最高得分为5分,完成率 100%,个别企业表现突出,展示出较强的集成部署能力,能够完全覆盖应测项的要求。

平均得分为2.7分,完成率 54%。这一结果显示,集成部署能力整体表现较为薄弱,约一半的应测项未能被大部分企业实现。这表明企业在实际操作中,系统集成和部署方面面临一定挑战,亟需改进。

4.6 安全管理能力

安全管理能力是保障数据安全和系统稳定运行的重要能力,应测项为4,必选项为2。最高得分为4分,完成率 100%,表明部分企业在安全管理方面具备全方位的安全控制能力。

平均得分为2.9分,完成率 72%。整体来看,安全管理能力表现较为稳健,绝大多数企业已经达到了较高的安全水平,但仍有少数企业需要加强安全管控,以进一步提升数据和系统的安全性。

总体而言,企业应进一步加强技术研发,优化大模型的智能分析能力,提高其在复杂业务场景中的适应性和准确性。同时,针对集成部署能力的不足,企业需要探索更加灵活和高效的集成方案,确保系统能够无缝对接企业现有的IT架构。此外,标准化能力建设的推进将为企业提供明确的发展方向和规范,促进智能数据分析系统的健康发展。

发展趋势

智能BI是大模型技术落地的关键场景,未来发展前景广阔。国产大模型如DeepSeek的出现,显著降低了企业本地部署成本,同时增强了数据隐私保护和安全性,加速了智能BI在企业的落地。此外,AI Agent技术的快速发展,将助力企业以更低的成本和更高的效率获取更有价值的洞察,推动更精准的业务决策。在政策推动和市场需求的双重驱动下,国产化信创将成为下一阶段大模型BI厂商的热点发力方向。

大模型驱动的智能数据分析工具标准及测试简介

中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会(CCSA TC601),联合50余家企业的100余位专家共同编制完成了《大模型驱动的智能数据分析工具》标准,中国联合网络通信有限公司软件研究院作为核心参编企业之一。标准包含数据准备能力、大模型智能分析能力、智能交互能力、分享协作能力、集成部署能力、安全管理能力等六大能力域,18个能力子域,54个能力项。

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

2025 年大模型驱动的智能数据分析工县专项评估评测工作已正式启动,欢迎各方咨询!

联系人:韩晓璐

电话:18627873252(微信同号)

邮箱:[email protected]

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

中国信通院何宝宏:下一代数据治理

《数据治理产业图谱3.0》全新发布!构建数据治理服务商十型“人格”

关于我们

     中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!

      入会咨询:白老师   13520285502

                       [email protected]

AI+BI | 浅谈大模型技术如何助力BI3.0的发展

原文始发于微信公众号(大数据技术标准推进委员会):AI+BI | 浅谈大模型技术如何助力BI3.0的发展

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年2月10日13:08:04
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   AI+BI | 浅谈大模型技术如何助力BI3.0的发展https://cn-sec.com/archives/3721919.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息