一. 数据流通利用设施
2025年初,国家发展改革委员会、国家数据局等三部门正式发布了《国家数据基础设施建设指引》[1]。该文件从释放数据要素价值的角度出发,明确提出国家数据基础设施的概念,旨在面向社会提供涵盖数据采集、汇聚、传输、加工、流通、利用、运营、安全等全生命周期服务的一类新型基础设施。
如图1所示,国家数据基础设施的构建并非凭空而来,而是基于长期积累的网络设施、算力设施、应用设施等数字基础设施之上进一步拓展与深化。在此框架下,数据流通利用设施被提炼出来,成为数据价值释放的关键组成部分。其中,可信数据空间因其清晰易懂的概念、广泛的社会共识以及较强的实践可操作性,在国家政策的引导下迅速受到各界关注,形成建设热潮。
值得注意的是,在《建设指引》中,数据流通利用设施的技术路线并不止于可信数据空间,而其他路线在实践中往往以组件或理念的方式融入可信数据空间建设方案之中,因而知名度相对较低。本文将在现有公开政策与技术资料的基础上,重点介绍数场、数据元件、数联网三条路线,而对隐私保护计算与区块链等技术相对具体且已有较多介绍性文章,本文不再赘述。
图1:数据基础设施及网络、算力设施总体架构图
二. 数场
相较于数据流通利用设施中的其他技术名称,“数场”更偏向于一种规范与框架设计。其核心思想是通过构建标准化技术体系,使数据流通的各个环节更加有序、高效、安全。如图2所示,数场的技术架构由五个核心维度组成:
-
点:点是数据进入数场的入口,它不仅是数据供给方接入的通道,也是数据质量、合规性和安全性的第一道防线。在这个环节,数据需要经过格式校验、资质与合法性审查以及必要的脱敏处理,确保数据符合数场的标准,并防止敏感信息的泄露。
-
线:线是数场内部的数据传输网络,负责连接各个数据主体和功能平台,确保数据能够在不同节点之间高效、安全、稳定地流动。这一传输网络采用高速光纤、分布式网络架构等技术,确保数据能够以低延迟、高吞吐的方式传输,满足不同场景的需求。
-
面:面是数场中数据主体、数据资源和计算能力的综合交互空间,是数据流通、共享和交易的核心区域。在这里,数据供需双方可以自由匹配,数据可以在不同主体之间进行共享、交易或联合计算,实现数据价值的最大化。
-
场:场是基于数场基础设施构建的数据应用和创新生态,它是数据从静态资源转化为实际价值的关键环节。数场不仅提供数据存储和流通能力,还构建了丰富的行业应用生态,使数据能够在金融、医疗、交通、工业等多个领域发挥作用。
-
安全:安全是数场的核心保障体系,覆盖数据接入、传输、存储、计算和交易的全生命周期,确保数据在整个流通过程中的安全性与合规性。数场采用多层次的安全策略,包括数据加密、隐私保护计算、访问控制、数据溯源等机制,构建全方位的安全体系。
图2:数场功能架构图
三. 数据元件
数据元件由中国电子信息产业集团提出并推广,如图3所示,其核心思想是通过对数据的合理抽象,使数据成为稳定的要素形态,从而在保障安全性的同时,促进数据的高效流通与价值释放,并进一步支撑了数据要素化的流通模型与安全模型。
图3:基于数据元件的数据要素流通
3.1
数据抽象的三个阶段
数据元件的提出,实际上承载了数据抽象演进的历史脉络,主要经历了以下三个阶段:
-
数据与应用程序的解耦:在传统计算模式下,数据与应用程序高度耦合,导致系统开发复杂度较高。数据库系统的出现,通过数据表结构的标准化抽象,使结构化数据能够独立于应用程序,从而降低了软件开发的门槛。
-
数据与业务系统的解耦:随着企业数字化转型的深入,业务应用的多样性与数据形态的复杂性日益增长,传统的企业级数据管理模式已难以满足需求。因此,数据湖、湖仓一体等架构应运而生,进一步屏蔽了企业内部数据汇聚与分析的复杂性,推动了数据的跨业务系统共享与复用。
-
数据与社会主体的解耦:进入数据要素化时代,数据的价值释放已不仅限于企业内部,而是需要在更广泛的社会范围内实现流通与利用。数据元件正是基于这一需求提出,通过标准化的数据抽象方式,使数据能够在不同主体之间安全、高效地流通。
3.2
数据件
在数据元件的基础上,孙凝晖院士进一步提出了“数据件”的概念,并明确了数据件应满足的四大核心要求:
-
可寻址:数据件需具备唯一标识与寻址机制,确保在广域范围内可被精准定位与访问。
-
可交换:数据件在不同主体、不同系统间应具备语义互通能力,确保数据流通的准确性与一致性。
-
可操作:数据件应提供标准化的访问与操作接口,使其可以即插即用,并支持进一步深度加工。
-
可管控:数据件需具备内生的安全管控机制,确保数据在流通过程中的合规性与安全性。
基于上述四个要求,如图4所示,孙院士进一步提出了数据件基本结构,对此有兴趣的读者不妨进一步阅读[2]。数据件的提出,进一步深化了数据标准化抽象的实践路径,为可信数据空间的建设奠定了坚实的技术基础。
图4:数据件基本结构
四. 数联网
4.1
BDWare开源方案
数联网概念最早由北京大学黄罡教授团队提出,旨在解决互联网环境下数据分散、低效访问、难以复用等问题。数联网提出了一种新的数据组织方式,通过数据一阶实体化,使数据成为直接可用、可操作、可寻址的独立逻辑实体,从而构建一个真正以数据为中心的网络空间。在这一架构下,数据本身不再依赖于某个特定的物理存储位置,而是通过分布式方式进行管理、调度和流通,极大提高了数据的可用性和共享价值。该方案也形成了BDWare开源软件[3]。
如图5所示,在该方案中,其结合数字对象架构(DOA)、智能合约、分布式账本等技术,致力于形成一套完整的数据空间基础设施,包括如下核心部分:
-
基于数字对象架构的一阶数据实体模型及交互技术:采用数字对象架构(DOA),将数据拆分成标识、元数据、实体三部分,使数据可以被唯一标识、有效存储和灵活管理;通过扩展的DOIP(Digital Object Interface Protocol) 解决数据访问的网络环境依赖问题,使数据访问不再依赖于特定的通信协议(如HTTP或TLS)。
-
基于语用合约的一阶数据实体使用技术:传统互联网数据使用方式是数据提供方决定数据的使用方式,而数联网引入语用合约,让数据使用方式由数据需求方定义,并与数据提供方达成共识。语用合约类似于智能合约,确保数据的使用方式透明可控,同时保障供需双方的权益。
-
基于关系链的一阶数据实体可信保障技术:由于数据在数联网中是自由流通的,数据的使用关系会变得非常复杂。为此,数联网采用关系链系统,基于区块链等分布式账本技术,为每次数据操作建立可信溯源机制。通过分层随机共识技术,提高区块链的吞吐量,使其能够支持互联网级别的数据关系记录。
图5:基于数字对象架构的数联网基础设施
4.2
中国移动DSSN方案
无独有偶,中国移动在2023年也提出了一种数联网架构[4],其理念更接近于计算机领域经典的“加中间层软件”思路,采用“交易-交付分离+网络化可信计算”的架构,通过标准化的数据流通协议、可信计算技术、数据资产管理体系,构建一个跨行业、跨区域、跨主体的数据流通网络。其具体包含:
-
DSP(数据交付平台):负责数据交易管理、任务调度、交易撮合、流通全链路管控等;
-
DSN(数据服务节点):部署在数据提供方,实现数据源对接、DSSN专网接入、数据安全计算等功能;
-
DRN(数据需求节点):部署在数据需求方,实现业务系统对接、DSSN专网接入,数据可视化开发、数据计算等功能;
这些网元之间通过DSSN专网连接,形成一个分布式、可扩展的可信数据流通网络,使数据可以在不同主体之间安全流通。笔者以为,相较于其他数据流通方案,DSSN更强调充分利用现有技术体系,以多维度分层适配数据要素流通中的关键挑战,提供更具可行性和可扩展性的解决方案。
图6: 中国移动数联网方案
五 总结
本篇文章介绍了数据流通利用设施中的几条重要路线,不难看出,这些路线既代表了不同角度的技术探索,也在实践中不断融合借鉴与创新,是国内多类数据要素主体和市场发展脉络的真实体现。
展望未来,可信数据空间的建设将以国际数据空间中的使用控制理念为基础,吸收多元理念与前沿技术,构建更加成熟、完善的体系,助力数据要素市场的高效流通与价值释放。在下一篇文章中,我们将结合信通院等权威机构的指导方案,以功能视角深入剖析可信数据空间的建设方法与核心组件。
参考文献
[1]: https://www.gov.cn/zhengce/zhengceku/202501/P020250106393009877184.pdf
[2]: 孙凝晖, 郭嘉丰. 数据件:一种数据要素标准化抽象[J]. 中国计算机学会通讯, 2024, 20(10): 1-10
[3]: https://gitee.com/BDWare
[4]: 中国移动研究院用户与市场研究所. 面向数据要素流通的新型基础设施——数联网(DSSN)[R]. 北京: 中移智库, 2023.
内容编辑:创新研究院 顾奇责任编辑:创新研究院 陈佛忠
原文始发于微信公众号(绿盟科技研究通讯):可信数据空间(三)数据流通利用设施中的几条路线
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论