ETL是什么?
ETL是Extract, Transform和Load的缩写。在这个过程中,ETL工具从不同的RDBMS源系统中提取数据,然后转换数据,如应用计算、连接等,然后将数据加载到数据仓库系统中。
在ETL中,数据从源流向目标。ETL过程转换引擎负责处理任何数据更改。
ELT是什么?
ELT是观察数据一种方法。ELT让目标系统进行转换数据,而不是在编写之前转换数据。数据首先复制到目标,然后在适当的位置进行转换。
ELT通常用于非sql数据库,如Hadoop集群、数据设备或云安装。
ETL和ELT的不同点
ETL和ELT在以下参数上存在差异:
参数 | ETL | ELT |
过程 | 数据在暂存区域上进行转换,然后传输到数据仓库。 | 数据保存在数据仓库的数据库中。 |
代码使用 | 用于:1.计算密集型转换、2.少量数据 | 用于处理大量数据 |
转换 | 转换在ETL服务器/暂存区域完成 | 转换在目标系统中执行 |
加载时间 | 数据首先加载到staging,然后加载到目标系统。时间密集。 | 数据只加载到目标系统一次,得更快。 |
转换时间 | ETL过程需要等待转换完成。随着数据大小的增长,转换时间也会增加。 | 在ELT过程中,速度从不依赖于数据的大小。 |
维护时间 | 它需要高度维护,因为您需要选择数据来加载和转换。 | 低维护,因为数据总是可用的。 |
实现的复杂性 | 在早期阶段,更容易实现。 | 实施ELT过程应具备深厚的工具知识和专业技能。 |
数据仓库支持 | 用于内部、关系和结构化数据的ETL模型。 | 用于支持结构化、非结构化数据源的可伸缩云基础设施。 |
数据湖(Data Lake)支持 | 不支持 | 允许使用非结构化数据的数据湖。 |
复杂性 | ETL进程只加载设计时确定的重要数据。 | 这个过程涉及到从向后输出到只加载相关数据的开发。 |
成本 | 中小企业成本高。 | 使用在开源软件作为服务平台的入门成本较低。 |
查找 | 在ETL过程中,事实和维度都需要在staging area中可用。 | 所有数据都是可用的,因为提取和加载发生在一个操作中。 |
聚合 | 复杂性随着数据集中数据量的增加而增加。 | 目标平台的强大功能可以快速处理大量数据。 |
计算 | 重写现有列或需要追加数据集并将其推到目标平台。 | 轻松地将计算后的列添加到现有表中。 |
成熟度 | 这个过程已经使用了20多年。它有很好的文档记录,并且很容易获得最佳的设计和运行效果 | 相对较新的概念和复杂的实施。 |
硬件 | 大多数工具都有昂贵的独特硬件需求。 | Saas硬件成本不是问题。 |
支持非结构化数据 | 主要支持关系数据 | 支持随时可用的非结构化数据。 |
总结:
- ETL表示提取、转换和加载,ELT表示提取、加载和转换
- 在ETL进程中,数据从源流到中台再到目标。
- ELT让目标系统进行转换。没有涉及中台系统。
- ELT解决了ELT的许多挑战,但成本高昂,需要掌握特定的技能来实施和维护。
文章说明:
本文翻译自国外技术文章:https://www.guru99.com/etl-vs-elt.html
本文为九五青年博客翻译,如需转载请在下面留言,原文如有版权问题,在下面留言板反馈,我们会第一时间处理
» 订阅本站:https://www.kgraph.cn
» 转载请注明来源:九五青年博客 » 《ETL和ELT有什么区别?ETL和ELT必须要知道的不同点》