资料仓储

一种存储系统

计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告英语Business reporting数据分析的系统,被认为是商业智能的核心组件[1]。 数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起[2],用于为整个企业的员工创建分析报告[3]

数据仓库的总览。

存储在仓库中的数据从运行系统(例如营销或销售)上传。这些数据可能会通过一个ODS数据库,并且可能需要进行额外操作的数据清理[2],以确保数据质量英语data quality,然后才能在数据仓库中用于报告。

典型的基于提取、转换、加载(ETL)的数据仓库[4]使用分级数据集成和访问层来存放其关键功能。分级层或分级数据库存储从每个不同的源数据系统中提取的原始数据。集成层通过转换来自分级层的数据,将不同的数据集合在一起,通常将转换后的数据存储在ODS数据库中。然后将集成的数据转移到另一个数据库(通常称为数据仓库数据库),在这个数据库中,数据被分为层次组(通常称为维度),并被分成事实和聚合事实。事实和维度的组合有时被称为星型模式。访问层帮助用户检索数据。[5]

数据的主要来源被清理、转换、分类,并提供给管理人员和其他商业专业人员用于数据挖掘线上分析处理市场研究决策支持[6]。 然而,检索和分析数据、提取、转换和装载数据以及管理数据字典的方法也被认为是数据仓库系统的基本组成部分。许多数据仓库的文献都使用了这个更广泛的语境。因此,数据仓库的扩展定义包括商业智能工具英语business intelligence tools、提取、转换和加载数据到存储库的工具,以及管理和检索元数据的工具。

较简易的解释方式

资料仓储是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。

利用资料仓储方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个资料仓储皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。

较学术的解释方式

资料仓储 ,由资料仓储之父比尔·英蒙英语Bill Inmon于1990年提出,主要功能乃是将组织透过资讯系统之线上交易处理(OLTP)经年累月所累积的大量资料,透过资料仓储理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如线上分析处理(OLAP)、资料探勘(Data Mining)之进行,并进而支援如决策支援系统(DSS)、主管资讯系统(EIS)之建立,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智慧(BI)。

一般来说,资料仓储可由关联式资料库,或专为资料仓储开发的多维度资料库建立,若由多维度资料库建立而成,其架构可分为星状及雪花状架构,包含数个维度资料表,及一个事实资料表。

资料仓储的建制不仅只是资讯工具技术面的运用,在规画和执行面更需对产业知识、行销管理、市场定位、策略规画等相关条件有深入的了解,才能真正发挥资料仓储以及后续分析工具的价值,提升组织竞争力。

资料仓储的特性

  • 主题导向(Subject-Oriented)
有别于一般OLTP系统,资料仓储资料模型设计,著重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
  • 整合性(Integrated)
资料来自企业各OLTP系统,在资料仓储中是整合过且一致的。
  • 时间差异性(Time-Variant)
资料的变动,在资料仓储中是能够被纪录以及追踪变化的,有助于能反映出能随著时间变化的资料轨迹。
  • 不变动性(Nonvolatile)
资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)

ODS、资料仓储和资料超市之异同

Operational data storeODS)、资料仓储资料超市三者相同之处在于均不属于任一OLTP系统,并且都是以资料导向的设计而非流程(process)导向。

相异之处在于,ODS的特性较著重于战术性查询,变动性大。资料仓储通常为企业层级,用来解答即兴式、临时性的问题。而资料超市则较偏向解决特定单位或部门的问题,部分采用维度模型(dimensional model)。

资料探勘、OLAP和资料仓储

资料仓储可以作为资料探勘OLAP等分析工具的资料来源,由于存放于资料仓储中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果。

资料探勘OLAP同为分析工具,其差别在于OLAP提供使用者一便利的多维度观点和方法,以有效率的对资料进行复杂的查询动作,其预设查询条件由使用者预先设定,而资料探勘,则能由资讯系统主动发掘资料来源中,未曾被察觉的隐藏资讯,和透过使用者的认知以产生知识。

资料探勘(Data Mining)技术是经由自动或半自动的方法探勘及分析大量的资料,以建立有效的模型及规则,而企业透过资料探勘更了解他们的客户,进而改进他们的行销、业务及客服的运作。资料探勘是资料仓储的一种重要运用。基本上,它是用来将你的资料中隐藏的资讯挖掘出来,所以Data Mining其实是所谓的Knowledge Discovery的一部份,Data Mining使用了许多统计分析与Modeling的方法,到资料中寻找有用的特征(Patterns)以及关连性(Relationships)。Knowledge Discovery的过程对Data Mining的应用成功与否有重要的影响,只有它才能确保Data Mining能获得有意义的结果。

参见

参考文献

  1. ^ Dedić, Nedim; Stanier, Clare. Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José , 编. An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016) 1 (SciTePress). 2016: 196–206 [2019-05-19]. ISBN 978-989-758-187-8. doi:10.5220/0005858401960206. (原始内容存档于2021-04-27).  参数|journal=与模板{{cite conference}}不匹配(建议改用{{cite journal}}|book-title=) (帮助)
  2. ^ 2.0 2.1 9 Reasons Data Warehouse Projects Fail. blog.rjmetrics.com. [2017-04-30]. (原始内容存档于2021-04-27). 
  3. ^ Exploring Data Warehouses and Data Quality. spotlessdata.com. [2017-04-30]. (原始内容存档于2018-07-26). 
  4. ^ What is Big Data?. spotlessdata.com. [2017-04-30]. (原始内容存档于2017-02-17). 
  5. ^ Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil. Optimization of Data Warehousing System: Simplification in Reporting and Analysis. IJCA Proceedings on International Conference and workshop on Emerging Trends in Technology (ICWET) (Foundation of Computer Science). 2011, 9 (6): 33–37 [2019-05-19]. (原始内容存档于2021-04-28). 
  6. ^ Marakas & O'Brien 2009