数据仓库技术基本概念

admin 2021年7月25日06:59:58评论129 views字数 1890阅读6分18秒阅读模式


在了解数据仓库的概念之前,我们需要先来理解一些相关基础概念。

(1)ETL(Extract/Transformation/Load,清洗/转换/加载):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

(2)元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。典型的元数据包括:数据仓库表的结构、数据仓库表的属性、数据仓库的源数据(记录系统)、从记录系统到数据仓库的映射、数据模型的规格说明、抽取日志和访问数据的公用例行程序等。

(3)粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。

(4)分割:结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。

(5)数据集市:小型的,面向部门或工作组级数据仓库。

(6)ODS(Operation Data Store,操作数据存储):能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的、集成的、可变的、当前或接近当前的。

(7)数据模型:逻辑数据结构,包括由数据库管理系统为有效进行数据库处理提供的操作和约束;用于表示数据的系统。

(8)人工关系:在决策支持系统环境中用于表示参照完整性的一种设计技术。传统的数据库技术在联机事务处理中获得了成功,但是无法满足随着市场竞争的加剧而带来的管理人员对决策分析数据提供的要求。传统的数据库系统中缺乏决策分析所需的大量历史数据信息,因为传统的数据库一般只保留当前或近期的数据信息。为了满足中高层管理人员预测、决策分析的需要,在传统数据库的基础上产生了能够满足预测、决策分析需要的数据环境——数据仓库。

    数据仓库是一个面向主题的、集成的、非易失的、且随时间变化的数据集合,用于支持管理决策。大众观点的数据仓库的体系结构如下图所示。


数据仓库技术基本概念

(1)数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于关系型数据库管理系统中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。

(2)数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

(3)OLAP服务器:On-Line Analytical Processing联机分析处理,是数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。其具体实现可以分为:ROLAP、MOLAP和HOLAP。

    ROLAP 基本数据和聚合数据均存放在RDBMS之中;(使用关系型数据库或者扩展的关系型数据库来管理数据仓库数据,OLAP中间件支持其余的功能。ROLAP包含了每个后端关系型数据库的优化,聚合,维度操作逻辑的实现,附件的工具以及服务等。所以ROLAP比MOLAP有更好的可伸缩性。比较典型的ROLAP有mondrian, Presto(facebook),目前阿里的DRDS也可以看作是ROLAP的框架))。

    MOLAP 基本数据和聚合数据均存放于多维数据库中(通过基于数据立方体的多位存储引擎,支持数据的多位视图。即通过将多维视图直接映射到数据立方体上,使用数据立方体能够将预计算的汇总数据快速索引。比较典型的MOLAP框架有kylin(apache),  Lylin(ebay)、pinot(linkedin)和druid))

    HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。(混合OLAP结合ROLAP和MOLAP,得益于ROLAP较大的可伸缩性和MOLAP的快速查询。)

(4)前端工具:主要包括各种查询工具、报表工具、分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。


注:ETL服务包含的内容见下图。


数据仓库技术基本概念


本文始发于微信公众号(网络安全等保测评):数据仓库技术基本概念

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2021年7月25日06:59:58
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   数据仓库技术基本概念https://cn-sec.com/archives/343179.html

发表评论

匿名网友 填写信息