目录
- 什么是数据仓库?
- 数据仓库的历史
- 数据仓库是如何运作的?
- 数据仓库的类型
- 数据仓库的常规模式
- 数据仓库组件
- 谁需要数据仓库?
- 数据仓库用在哪些地方?
- 实现数据仓库的步骤
- 实现数据仓库的最佳方案
- 为什么我们需要数据仓库?优点和缺点
- 数据仓库的未来
- 数据仓库工具
什么是数据仓库?
数据仓库被定义为一种技术,用于收集和管理来自不同来源的数据,以提供有意义的业务帮助。它是技术和组件的混合,有助于数据在业务上的战略性使用。
它是企业为查询和分析而不是为事务处理而设计的大量信息的电子存储。它是一个将数据转化为信息的过程,让用户能够及时获得这些信息,从而发挥作用。
决策支持数据库(数据仓库)与组织的操作数据库分开维护。然而,数据仓库不是一个产品,而是一个环境。它是一个为用户提供当前和历史决策支持信息的信息系统的体系结构,这些信息在传统的操作数据存储中难以访问或呈现。
数据仓库是用于数据分析和报告的BI系统的核心。
很多人都知道,使用3nf(即第三范式:最大可能确保一个数据库表中不包含已在其它表中已包含的非主关键字信息)为系统设计的数据库中,有很多相互关联的表。例如,关于当前库存信息的报告可以包含12个以上的合并条件。这可以快速降低查询和报告的响应时间。数据仓库提供了一种新的设计,可以帮助减少响应时间,并有助于提高报表和分析查询的性能。
数据仓库系统又称数据仓库系统:
- 决策支持系统(DSS)
- 执行信息系统
- 管理信息系统
- 商业智能解决方案
- 分析应用程序
- 数据仓库
数据仓库的历史
Datawarehouse使用户能够理解并提高组织的性能。随着计算机系统变得越来越复杂,需要处理越来越多的信息,对数据仓库的需求也随之发展。然而,数据仓库并不是一个新事物。
以下是数据仓库发展中的一些关键事件:
- 1960年的今天,达特茅斯和通用磨坊在一项联合研究项目中,提出了术语维度和事实。
- 1970年的今天,尼尔森和IRI为零售业引入了维度数据集市。
- 1983年的今天,特拉数据公司推出了一个专门为决策支持而设计的数据库管理系统
- 数据仓库始于20世纪80年代末,当时IBM员工Paul Murphy和Barry Devlin开发了业务数据仓库。
- 然而,真正的概念是由Inmon Bill提出的。他被认为是数据仓库之父。他写了关于仓库和企业信息工厂的建造、使用和维护的各种主题。
数据仓库是如何运作的?
数据仓库作为一个中央存储库,其中的信息来自一个或多个数据源。数据从事务系统和其他关系数据库流入数据仓库。
数据可能是:
- 结构化
- 半结构化
- 非组织性数据
处理、转换和接收数据,以便用户可以通过业务智能工具、SQL客户系统和电子表格访问数据仓库中处理过的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。
通过将所有这些信息合并到一个地方,企业或组织可以更全面地分析其客户。这有助于确保考虑到所有可用的信息。数据仓库使数据挖掘成为可能。数据挖掘是在数据中寻找可能导致更高销售和利润的模式。
数据仓库的类型
数据仓库的三种主要类型是:
1. 企业数据仓库:
企业数据仓库是一个集中式的仓库。它在整个企业中提供决策支持服务。它提供了一种统一的方法来组织和表示数据。它还提供了根据主题对数据进行分类的能力,并根据这些划分提供访问权限。
2. 操作数据存储:
当数据仓库和OLTP系统都不支持组织报告需求时,操作数据存储(也称为ODS)只是数据存储。在ODS中,数据仓库是实时更新的。因此,它被广泛用于日常活动,如存储员工的记录。
3.数据集市:
数据集市是数据仓库的子集。它是专门为某一特定行业而设计的,如销售、财务、销售或财务。在独立的数据集市中,可以直接从数据源收集数据。
数据仓库的常规模式
早些时候,组织开始相对简单地使用数据仓库。然而,随着时间的推移,数据仓库的更复杂的使用开始了。
以下是使用数据仓库的常规模式:
离线操作数据库:
在这个阶段,数据只是从一个操作系统复制到另一个服务器。这样,加载、处理和报告复制的数据不会影响操作系统的性能。
离线数据仓库:
数据仓库中的数据定期从操作数据库更新。数据仓库中的数据被映射和转换,以满足数据仓库的目标。
实时数据仓库:
在此阶段,数据仓库在操作数据库中发生任何事务时都会更新。例如,航空公司或铁路订票系统。
集成的数据仓库:
在此阶段,当操作系统执行事务时,数据仓库将不断更新。然后数据仓库生成事务,这些事务被传递回操作系统。
谁需要数据仓库?
像下面这一类的用户都会需要用到数据仓库的功能:
- 依赖大量数据的决策者
- 使用定制的复杂流程从多个数据源获取信息的用户。
- 它也被那些想要简单技术来访问数据的人所使用
- 对于那些想要有系统的决策方法的人来说,这也很重要。
- 如果用户需要在大量数据上获得快速性能,而这些数据对于报表、网格或图表来说是必需的,那么数据仓库就非常有用。
- 如果想要发现数据流和分组的“隐藏模式”,数据仓库是第一步。
数据仓库用在哪些地方?
以下是使用数据仓库的最常见部门:
- 航空公司:
在航空系统中,它被用于机组人员分配、航线盈利分析、常客计划促销等操作目的。
- 银行:
它被广泛应用于银行部门,以有效地管理桌上的资源。很少有银行还用于市场调研、产品性能分析和运营。
- 医疗保健:
医疗保健部门还使用数据仓库来制定战略和预测结果,生成患者的治疗报告,与相关保险公司和医疗援助服务共享数据,等等。
- 公共部门:
在公共部门,数据仓库用于收集情报。它帮助政府机构维护和分析每个人的税务记录、健康政策记录。
- 投资及保险业:
在这个领域,仓库主要用于分析数据模式、客户趋势和跟踪市场动向。
- 连锁零售:
在零售连锁企业中,数据仓库被广泛用于分销和营销。它还有助于跟踪商品、客户购买模式、促销活动,并用于确定定价策略。
- 电信:
数据仓库用于该部门的产品促销、销售决策和分销决策。
- 酒店行业:
这个行业利用数据仓库服务来设计并评估他们的广告和促销活动,他们希望根据客户的反馈和旅行模式来定位客户。
实现数据仓库的步骤
处理与数据仓库实现相关业务的最佳方法是采用以下三种策略
- 企业战略:在这里,我们确定技术,包括当前的体系结构和工具。我们还确定事实、维度和属性。还传递数据映射和转换。
- 分阶段交付:数据仓库的实现应该根据主题领域分阶段进行。应该首先实现预订和计费等相关业务实体,然后彼此集成。
- 迭代原型:应该迭代地开发和测试数据仓库,而不是采用堆砌数据、短时间盲目增加大量数据的实现方法。
下面是数据仓库实现的关键步骤及其需要实现的目标:
步骤 | 任务 | 目标 |
1 | 需要定义项目范围 | 范围定义 |
2 | 需要确定业务需求 | 逻辑数据模型 |
3 | 定义应用数据存储需求 | 应用数据存储模型 |
4 | 获取或开发抽取转换工具 | 提取工具和软件 |
5 | 定义数据仓库数据需求 | 数据转换模型 |
6 | 文档记录项目需求和数据需求 | 做项目清单 |
7 | 将应用数据存储映射到数据仓库 | D/W数据集成图 |
8 | 开发数据仓库数据库设计 | D/W数据设计图 |
9 | 从应用数据存储中提取数据 | 集成的D/W数据提取设计 |
10 | 导入数据至数据仓库 | 初始化数据仓库 |
11 | 维护数据仓库 | 不断增加数据和数据处理 |
实现数据仓库的最佳方案
- 明确一个计划来测试数据的一致性、准确性和完整性。
- 数据仓库必须设计好集成方案、系统定义和时间戳明确。
- 在设计数据仓库时,请确保使用正确的工具,坚持生命周期,处理数据冲突,并准备好认识到自己的错误。
- 永远不要替换应用系统和报告。
- 不要在提取、清理和加载数据上花费太多时间。
- 确保包括业务人员在内的所有利益相关者参与数据仓库的实施过程。建立数据仓库是一个联合/团队项目。您不希望创建对最终用户没有用处的数据仓库。
- 为最终用户准备培训计划。
为什么我们需要数据仓库?优点和缺点
数据仓库的优势:
- 数据仓库允许业务用户在一个地方快速访问来自某些源的关键数据。
- 数据仓库提供关于各种跨功能活动的一致信息。它还支持特别报告和查询。
- 数据仓库有助于集成许多数据源,以减少对生产系统的压力。
- 数据仓库有助于减少分析和报告的总周转时间。
- 重组和集成使用户更容易用于报告和分析。
- 数据仓库允许用户从单个位置的多个源访问关键数据。因此,它节省了用户从多个源检索数据的时间。
- 数据仓库存储了大量的历史数据。这有助于用户分析不同的时间段和趋势,从而做出未来的预测。
数据仓库的缺点:
- 对于非结构化数据不是一个理想的选择。
- 数据仓库的创建和实现无疑是一件费时费力的事情。
- 数据仓库可能会很快过时。
- 难以更改数据类型和范围、数据源模式、索引和查询。
- 数据仓库可能看起来很简单,但实际上,它对于普通用户来说太复杂了。
- 尽管在项目管理方面做出了最大的努力,但是数据仓库项目的范围总是会增加。
- 有时仓库用户将开发不同的业务规则。
- 组织需要花费大量资源用于培训和实施。
数据仓库的未来
- 数据监管约束的变化可能会限制组合不同数据源的能力。这些不同的源可能包括难以存储的非结构化数据。
- 随着数据库规模的增长,对构成非常大的数据库的因素的估计也在不断增长。构建和运行总是在不断增长的数据仓库系统非常复杂。目前可用的硬件和软件资源不允许在线保存大量数据。
- 多媒体数据不能简单地作为文本数据来处理,而文本信息可以通过现在可用的关系软件来检索。这可能是一个研究课题。
数据仓库工具
市场上有很多数据仓库工具。以下是一些最著名的例子:
1. MarkLogic:
MarkLogic是一种有用的数据仓库解决方案,它使用一系列企业特性使数据集成更容易、更快。该工具有助于执行非常复杂的搜索操作。它可以查询不同类型的数据,如文档、关系和元数据。
http://developer.marklogic.com/products
2. Oracle:
Oracle是业界领先的数据库。它为现场和云中提供了广泛的数据仓库解决方案选择。它有助于通过提高运营效率来优化客户体验。
https://www.oracle.com/index.html
3.Amazon RedShift:
Amazon Redshift是一个数据仓库工具。使用标准SQL和现有BI工具分析所有类型的数据是一种简单而经济的工具。它还允许使用查询优化技术对pb级的结构化数据运行复杂的查询。
https://aws.amazon.com/redshift/?nc2=h_m1
结论
- 数据仓库作为一个中央存储库,其中的信息来自一个或多个数据源。
- 数据仓库的三种主要类型是企业数据仓库、操作数据存储和数据集市。
- 数据仓库的一般状态是离线操作数据库、离线数据仓库、实时数据仓库和集成数据仓库。
- 数据仓库的四个主要组件是Load manager、Warehouse manager、Query manager和终端用户访问工具
- 数据仓库广泛应用于航空、银行、医疗、保险、零售等行业。
- 实现数据仓库是一个三步走的策略,即企业策略、阶段交付和迭代原型。
- 数据仓库允许业务用户在一个地方快速访问来自某些源的关键数据。
文章说明
本文翻译自国外技术文章:https://www.guru99.com/data-warehousing.html
本文为九五青年博客翻译,如需转载请在下面留言,原文如有版权问题,在下面留言板反馈,我们会第一时间处理。