目录
- 什么是数据集市?
- 为什么我们需要数据集市?
- 数据集市类型
- 依赖数据集市
- 独立数据集市
- 混合数据集市
- 实现数据集市的步骤
- 设计
- 构建
- 填充
- 访问
- 管理
- 实现数据集市的最佳方法
- 数据集市的优点和缺点
什么是数据集市?
数据集市集中于一个组织的单个功能区域,并包含存储在数据仓库中的数据子集。
数据集市是数据仓库的浓缩版本,设计用于组织中的特定部门、单元或用户组。例如,市场营销、销售、人力资源或财务。它通常由组织中的一个部门控制。
与数据仓库相比,数据集市通常只从几个数据源提取数据。数据集市的规模较小,与数据仓库相比更加灵活。
为什么我们需要数据集市?
- 由于数据量的减少,数据集市有助于提高用户的响应时间
- 它方便了对频繁请求数据的访问。
- 与公司数据仓库相比,数据集市更容易实现。与此同时,与实现完整的数据仓库相比,实现数据集市的成本肯定更低。
- 与数据仓库相比,数据集市是敏捷的。如果模型发生变化,数据集市可以更快地构建,因为它的尺寸更小。
- 数据集市由一个主题专家定义。相反,数据仓库是由来自不同领域的跨学科SME定义的。因此,与数据仓库相比,数据集市更易于更改。
- 数据是分区的,允许非常细粒度的访问控制特权。
- 数据可以被分割并存储在不同的硬件/软件平台上。
数据集市类型
数据集市主要有三种类型:
- 依赖的:依赖数据集市是通过直接从操作源、外部源或两个源绘制数据创建的。
- 独立的:独立的数据集市是在不使用中心数据仓库的情况下创建的。
- 混合的:这种类型的数据集市可以从数据仓库或操作系统获取数据。
依赖数据集市
依赖的数据集市允许从单个数据仓库采购组织的数据。它提供了集中化的好处。如果需要开发一个或多个物理数据集市,则需要将它们配置为依赖的数据集市。
依赖数据集市可以用两种不同的方式构建。用户可以根据需要访问数据集市和数据仓库,也可以只访问数据集市。第二种方法不是最优的,因为它产生的数据有时被称为数据垃圾场。在数据垃圾场中,所有的数据都以一个公共源开始,但是它们被丢弃,并且大部分被丢弃。
独立数据集市
在不使用中心数据仓库的情况下创建独立的数据集市。这种数据集市是组织中较小的组的理想选择。
独立的数据集市既不与企业数据仓库建立关系,也不与任何其他数据集市建立关系。在独立的数据集市中,数据是单独输入的,数据分析也是自主进行的。
独立数据集市的实现与构建数据仓库的动机背道而驰。首先,您需要一个一致的、集中式的企业数据存储,这些数据可以由具有不同兴趣的多个用户分析,这些用户希望获得广泛变化的信息。
混合数据集市
混合数据集市将来自数据仓库之外的源的输入组合在一起。当您希望进行特别集成时,例如在向组织添加新组或产品之后,这将非常有用。
它最适合于多个数据库环境和任何组织的快速实现周转。它还需要最少的数据清理工作。混合数据集市还支持大型存储结构,它最适合灵活地处理较小的以数据为中心的应用程序。
实现数据集市的步骤
实现数据集市是一个有价值但复杂的过程。以下是实现数据集市的详细步骤:
设计
设计是数据集市实现的第一阶段。它涵盖了从发起对数据集市的请求到收集关于需求的信息之间的所有任务。最后,我们创建了数据集市的逻辑和物理设计。
设计步骤包括以下任务:
- 收集业务和技术需求,识别数据源。
- 选择适当的数据子集。
- 设计数据集市的逻辑和物理结构。
数据可以根据以下标准进行分区:
- 日期
- 业务或职能单位
- 地理位置
- 上述任何组合
数据可以在应用程序或DBMS级别进行分区。尽管建议在应用程序级别进行分区,因为它允许随着业务环境的变化每年使用不同的数据模型。
你需要什么产品和技术?
一支简单的笔和一张纸就足够了。尽管帮助您创建UML或ER图的工具也会将元数据附加到您的逻辑和物理设计中。
构建
这是实施的第二阶段。它涉及创建物理数据库和逻辑结构。
这一步包括以下任务:
- 实现在早期阶段设计的物理数据库。例如,创建表、索引、视图等数据库模式对象。
你需要什么产品和技术?
您需要一个关系数据库管理系统来构建一个数据集市。RDBMS有几个特性是数据集市成功所必需的。
- 存储管理:RDBMS存储和管理用于创建、添加和删除数据的数据。
- 快速数据访问:使用SQL查询,您可以根据特定条件/过滤器轻松地访问数据。
- 数据保护:RDBMS系统还提供了一种从系统故障(如电源故障)中恢复的方法。它还允许在磁盘发生故障时从这些备份中恢复数据。
- 多用户支持:数据管理系统提供并发访问,允许多个用户访问和修改数据,而不会干扰或覆盖其他用户所做的更改。
- 安全性:RDMS系统还提供了一种方法来规范用户对对象和某些类型操作的访问。
填充
在第三阶段,数据在数据集市中填充。
填充步骤包括以下任务:
- 源数据到目标数据的映射
- 源数据的提取
- 对数据进行清洗和转换操作
- 将数据加载到数据集市
- 创建和存储元数据
你需要什么产品和技术?
您可以使用ETL(Extract Transform Load)工具来完成这些填充任务。该工具允许您查看数据源、执行源到目标的映射、提取数据、转换、清理数据并将其加载回数据集市。
在此过程中,该工具还创建了一些元数据,这些元数据与数据的来源、数据的最新情况、对数据进行了什么类型的更改以及完成了什么级别的摘要等相关。
访问
访问是第四个步骤,包括使用数据:查询数据、创建报告、图表并发布它们。最终用户向数据库提交查询并显示查询结果
访问步骤需要执行以下任务:
- 设置一个元层,将数据库结构和对象名称转换为业务术语。这有助于非技术用户方便地访问数据集市。
- 建立和维护数据库结构。
- 如果需要,设置API和接口
你需要什么产品和技术?
您可以使用命令行或GUI访问数据集市。GUI是首选的,因为与命令行相比,它可以很容易地生成图形,并且对用户很友好。
管理
这是数据集市实现过程的最后一步。此步骤包括以下管理任务
- 正在进行的用户访问管理。
- 系统优化和微调,以实现增强的性能。
- 向数据集市添加和管理新数据。
- 计划恢复场景并确保在系统发生故障时系统可用性。
你需要什么产品和技术?
您可以使用GUI或命令行进行数据集市管理。
实现数据集市的最佳方法
以下是您在数据集市实施过程中需要遵循的最佳方法:
- 数据集市的源应该是部门结构的
- 数据集市的实现周期应该在短时间内测量,即,而不是几个月或几年。
- 在计划和设计阶段让所有涉众参与进来是很重要的,因为数据集市的实现可能很复杂。
- 数据集市硬件/软件、网络和实现成本应该在您的计划中准确地进行预算
- 即使数据集市是在相同的硬件上创建的,它们也可能需要一些不同的软件来处理用户查询。应该评估额外的处理能力和磁盘存储需求,以获得快速的用户响应
- 数据集市可能位于与数据仓库不同的位置。这就是为什么确保它们具有足够的网络容量来处理将数据传输到数据集市所需的数据量非常重要。
- 实现成本应该预算用于数据集市加载过程的时间。加载时间随着转换复杂度的增加而增加。
数据集市的优点和缺点
优势
- 数据集市包含组织范围内数据的子集。这些数据对组织中特定的一组人员很有价值。
- 它是数据仓库的高成本替代品,而数据仓库的构建成本很高。
- 数据集市允许更快地访问数据。
- 数据集市易于使用,因为它是专门为用户的需要而设计的。因此,数据集市可以加速业务流程。
- 与数据仓库系统相比,数据集市需要更短的实现时间。实现数据集市更快,因为您只需要集中数据的唯一子集。
- 它包含历史数据,使分析人员能够确定数据趋势。
缺点
- 很多时候,企业创建了太多不相干的数据集市,却没有带来多少好处。这可能成为一个需要维护的巨大障碍。
- 由于数据集有限,数据集市无法提供全公司范围的数据分析。
总结:
- 数据集市集中于组织的单个功能区域,并包含存储在数据仓库中的数据子集。
- 由于数据量的减少,数据集市有助于提高用户的响应时间。
- 三种类型的数据集市是1)依赖的2)独立的3)混合的
- 数据集市的重要实现步骤是:1)设计2)构造3)填充4)访问和5)管理
- 数据集市的实现周期应该在短时间内测量,即,而不是几个月或几年。
- 数据集市是数据仓库的高成本替代品,而数据仓库的构建成本很高。
- 由于数据集有限,数据集市无法提供全公司范围的数据分析。
文章说明:
本文翻译自国外技术文章:https://www.guru99.com/data-mart-tutorial.html
本文为九五青年博客翻译,如需转载请在下面留言,原文如有版权问题,在下面留言板反馈,我们会第一时间处理