什么是数据挖掘?
数据挖掘是在大型数据集中寻找隐藏的、有效的和潜在有用的模式。数据挖掘就是发现数据之间未知的关系。
它是一个多学科的技能,使用机器学习,统计,人工智能和数据库技术。
通过数据挖掘得到的见解可以用于市场营销、欺诈检测和科学发现等。
数据挖掘又称知识发现、知识提取、数据/模式分析、信息获取等。
目录
- 什么是数据挖掘?
- 数据类型
- 数据挖掘实现过程
- 业务的理解
- 数据的理解
- 数据准备
- 数据转换
- 建模
- 数据挖掘技术
- 实施数据挖掘的挑战
- 数据挖掘的例子
- 数据挖掘工具
- 数据挖掘的好处:
- 数据挖掘的缺点
- 数据挖掘的应用
数据类型
可以对以下类型的数据执行数据挖掘
数据挖掘实现过程
让我们详细研究一下数据挖掘的实现过程
业务的理解:
在此阶段,将建立业务和数据挖掘目标。
- 首先,您需要了解业务和客户目标。你需要定义你的客户想要什么(很多时候甚至他们自己都不知道)
- 评估当前的数据挖掘场景。在评估中考虑资源、假设、约束和其他重要因素。
- 使用业务目标和当前场景,定义数据挖掘目标。
- 一个好的数据挖掘计划是非常详细的,应该开发它来实现业务和数据挖掘目标。
数据的理解:
在此阶段,将对数据执行完整性检查,以检查其是否适合数据挖掘目标。
- 首先,从组织中可用的多个数据源收集数据。
- 这些数据源可能包括多个数据库、平面文件处理程序或数据集。在数据集成过程中可能会出现对象匹配和模式集成等问题。这是一个相当复杂和棘手的过程,因为来自不同来源的数据不太可能轻易匹配。例如,表A包含一个名为cust_no的实体,而另一个表B包含一个名为cust_id的实体。
- 因此,很难确保这两个给定对象引用的值是否相同。这里,应该使用元数据来减少数据集成过程中的错误。
- 下一步是搜索所获取数据的属性。探索数据的一个好方法是使用查询、报告和可视化工具回答数据挖掘问题(在业务阶段决定的)。
- 根据查询结果确定数据质量。如果需要获取数据,则会丢失数据。
数据准备:
在这个阶段,数据已经为生产做好准备。
- 数据准备过程消耗了项目大约90%的时间。
- 应该选择、清理、转换、格式化、匿名和构造(如果需要的话)来自不同来源的数据。
- 数据清理是通过平滑有噪声的数据并填充缺失值来“清理”数据的过程。
- 例如,对于客户人口统计资料,缺少年龄数据。数据不完整,需要填写。在某些情况下,可能存在数据异常值。例如,年龄值为300。数据可能不一致。例如,客户的名称在不同的表中是不同的。
- 数据转换操作更改数据,使其在数据挖掘中有用。可以应用以下转换
数据转换:
数据转换操作将有助于挖掘过程的成功。
- 平滑:它有助于消除数据中的噪音。
- 聚合:对数据应用摘要或聚合操作。即。,将每周的销售数据汇总,计算每月和每年的销售总额。
- 概化:在此步骤中,在概念层次结构的帮助下,将低级数据替换为高级概念。例如,城市被县所取代。
- 规范化:当属性数据按比例放大或缩小时执行的规范化。示例:数据应该在标准化后的-2.0到2.0范围内。
- 属性构造:构造这些属性并包含有助于数据挖掘的给定属性集。
- 这个过程的结果是一个可以用于建模的最终数据集。
建模
在这个阶段,使用数学模型来确定数据模式。
- 根据业务目标,应该为准备好的数据集选择合适的建模技术。
- 创建一个场景来测试检查模型的质量和有效性。
- 在准备好的数据集中运行模型。
- 结果应该由所有涉众进行评估,以确保模型能够满足数据挖掘目标。
评价:
在此阶段,将根据业务目标评估标识的模式。
- 数据挖掘模型生成的结果应该根据业务目标进行评估。
- 获得业务理解是一个迭代过程。事实上,在理解的同时,可能会因为数据挖掘而提出新的业务需求。
- 在部署阶段,将采取“走”或“不走”的决策来移动模型。
部署:
在部署阶段,您将数据挖掘发现交付给日常业务操作。
- 数据挖掘过程中发现的知识或信息应该使非技术涉众易于理解。
- 创建了一个详细的部署计划,用于运输、维护和监视数据挖掘发现。
- 最后的项目报告是根据在项目中获得的经验教训和关键经验创建的。这有助于改进组织的业务策略。
数据挖掘技术
1.分类:
此分析用于检索关于数据和元数据的重要和相关信息。这种数据挖掘方法有助于将数据分类到不同的类中。
2. 聚类:
聚类分析是一种识别相似数据的数据挖掘技术。这个过程有助于理解数据之间的异同。
3.回归:
回归分析是识别和分析变量之间关系的数据挖掘方法。它被用来确定一个特定变量的可能性,给定其他变量的存在。
4. 关联规则:
这种数据挖掘技术有助于发现两个或多个项目之间的关联。它在数据集中发现一个隐藏的模式。
5. 外部检测:
这种类型的数据挖掘技术指的是观察数据集中与预期模式或预期行为不匹配的数据项。该技术可以应用于多种领域,如入侵、检测、欺诈或故障检测等。外部检测也称为离群值分析或离群值挖掘。
6. 序列模式:
这种数据挖掘技术有助于发现或识别特定时期内事务数据中的类似模式或趋势。
7. 预测:
预测结合了其他数据挖掘技术,如趋势、顺序模式、聚类、分类等。它以正确的顺序分析过去的事件或实例,以预测未来的事件。
实施数据挖掘的挑战:
需要熟练的专家来制定数据挖掘查询。
- 过度拟合:由于训练数据库较小,模型可能不适合未来的状态。
- 数据挖掘需要大型数据库,而大型数据库有时很难管理
- 可能需要修改业务实践,以确定是否使用未发现的信息。
- 如果数据集不多样化,数据挖掘结果可能不准确。
- 来自异构数据库和全球信息系统的集成信息可能很复杂
数据挖掘的例子:
示例1:
考虑电信服务提供商的营销主管,他希望增加长途服务的收入。对于高投资回报率的销售和营销工作,客户档案是重要的。他拥有庞大的客户信息数据库,如年龄、性别、收入、信用记录等。但是,用人工分析来确定喜欢打长途电话的人的特征是不可能的。使用数据挖掘技术,他可以发现高长途电话用户和他们的特征之间的模式。
例如,他可能会了解到,他最好的客户是45岁至54岁之间的已婚女性,她们的年收入超过8万美元。营销工作可以针对这类人群。
示例2:
一家银行想要寻找新的方法来增加其信用卡业务的收入。他们想知道如果费用减半,使用量是否会翻倍。
银行有多年平均信用卡余额、支付金额、信用额度使用和其他关键参数的记录。他们创建一个模型来检查提议的新业务策略的影响。数据结果显示,将目标客户群的费用减半,可以增加1000万美元的收入。
数据挖掘工具
下面是在工业中广泛使用的两种流行的数据挖掘工具
r语言:
R语言是一个用于统计计算和图形的开源工具。R具有广泛的统计、经典统计检验、时间序列分析、分类和图形技术。它提供了有效的数据处理和存储设施。
Oracle数据挖掘:
Oracle数据挖掘(ODM)是Oracle高级分析数据库的一个模块。这个数据挖掘工具允许数据分析师生成详细的见解并做出预测。它帮助预测客户行为,开发客户档案,识别交叉销售机会。
数据挖掘的好处:
- 数据挖掘技术帮助企业获取基于知识的信息。
- 数据挖掘帮助组织在运营和生产中做出有利可图的调整。
- 与其他统计数据应用相比,数据挖掘是一种经济有效的解决方案。
- 数据挖掘有助于决策过程。
- 促进趋势和行为的自动预测,以及隐藏模式的自动发现。
- 它可以在新系统和现有平台上实现
- 它是一个快速的过程,使用户可以在更短的时间内分析大量的数据。
数据挖掘的缺点
- 公司有可能把客户的有用信息卖给其他公司来赚钱。例如,美国运通将客户的信用卡购买业务出售给其他公司。
- 许多数据挖掘分析软件很难操作,需要提前培训才能使用。
- 不同的数据挖掘工具由于其设计中使用的算法不同,工作方式也不同。因此,选择正确的数据挖掘工具是一项非常困难的任务。
- 数据挖掘技术不准确,在一定条件下会造成严重后果。
数据挖掘的应用
应用 | 用法 |
通信 | 数据挖掘技术用于通信领域,预测客户的行为,以提供高目标和相关的活动。 |
保险 | 数据挖掘帮助保险公司为其产品定价,使其盈利,并向新客户或现有客户推销新产品。 |
教育 | 数据挖掘有利于教育工作者访问学生数据,预测成绩水平,发现需要额外关注的学生或学生群体。例如,数学成绩差的学生。 |
制造业 | 在数据挖掘的帮助下,制造商可以预测生产工具的磨损。他们可以预期维护,从而帮助他们减少停机时间。 |
银行 | 数据挖掘帮助金融业了解市场风险,并管理监管合规。它帮助银行识别可能违约的人,以决定是否发行信用卡、贷款等。 |
零售 | 数据挖掘技术帮助零售商场和杂货店在最关注的位置识别和安排最畅销的商品。它帮助商店老板想出鼓励顾客增加消费的方案。 |
服务提供商 | 手机和公用事业等服务提供商使用数据挖掘来预测客户离开公司的原因。他们分析账单细节、客户服务互动、向公司提出的投诉,给每个客户打分,并提供奖励。 |
电子商务 | 电子商务网站通过数据挖掘提供交叉销售和向上销售。最有名的公司之一是亚马逊(Amazon),该公司利用数据挖掘技术吸引更多客户进入其电子商务商店。 |
超级市场 | 数据挖掘使超市的发展规则能够预测购物者是否有可能怀孕。通过评估他们的购买模式,他们可以找到最有可能怀孕的女性顾客。他们可以开始瞄准婴儿奶粉、婴儿用品店、尿布等产品。 |
犯罪调查 | 数据挖掘帮助犯罪调查机构部署警力(犯罪最有可能发生在哪里,什么时候发生? |
生物信息学 | 数据挖掘有助于从生物学和医学中收集的大量数据集中挖掘生物数据。 |
总结:
- 数据挖掘就是解释过去,预测未来进行分析。
- 数据挖掘有助于从大量数据中提取信息。它是从数据中挖掘知识的过程。
- 数据挖掘过程包括业务理解、数据理解、数据准备、建模、演化和部署。
- 重要的数据挖掘技术有分类、聚类、回归、关联规则、外部检测、顺序模式和预测
- r语言和Oracle数据挖掘是重要的数据挖掘工具。
- 数据挖掘技术帮助企业获取基于知识的信息。
- 数据挖掘的主要缺点是,很多分析软件很难操作,需要提前培训。
- 数据挖掘广泛应用于通信、保险、教育、制造、银行、零售、服务提供商、电子商务、超市等生物信息学领域。
文章说明:
本文翻译自国外技术文章:https://www.guru99.com/data-mining-tutorial.html
本文为九五青年博客翻译,如需转载请在下面留言,原文如有版权问题,在下面留言板反馈,我们会第一时间处理。