什么是数据挖掘?

数据挖掘是探索大数据以揭示未被发现的模式和规则的过程。这个过程也被称为知识发现。

数据挖掘通常发生在数据分析之前。挖掘可以帮助发现业务以前可能没有意识到的模式,例如两个变量之间的相关性。然后,分析可以用于测试基于从采矿中收集到的见解的假设。

什么是数据挖掘过程?

数据挖掘是一个涉及统计学、机器学习和数据库技术的复杂过程。

数据挖掘最常用的流程模型之一是CRISP-DMModel,自20世纪90年代以来一直在使用的开源标准。该模型将数据挖掘分解为六个步骤:

1.业务的理解

在初始阶段,涉众讨论数据挖掘项目的范围和目标。此对话有助于确定使用哪些数据源,需要哪些业务结果,以及将向数据挖掘团队提供哪些资源。万博手机登录平台

2.数据的理解

接下来,会有一个阶段数据探索.这涉及到对可用数据源的高级检查。在这一阶段,有希望的趋势是突出的,这些将是未来采矿的目标。Tableau或Grapher等工具可以帮助执行这种初始分析。

3.数据准备

为便于挖掘,请根据实际情况准备数据。这可以包括:

  • 数据清理错误、重复和其他有问题的值将从数据中删除。
  • 数据集成:多个不同的源被统一为一个源。
  • 数据协调:数据转换为预定义模式。

此阶段可能通过ETL (提取转换负载)层,使资料准备过程自动化。像Xplenty这样的ETL平台可以从大多数常见的数据源准备数据,而不需要人工干预。

4.建模

数据挖掘团队将尝试许多模型来探索可用的数据。这些模型包括:

  • 线性回归:确定多个值之间的关系,然后使用这些关系预测未来的值
  • 决策树(或回归树):一种使用一系列二进制值来解释数据的建模技术
  • 神经网络:一遍又一遍地重复问题的机器学习算法,在每次迭代中逐渐变得更有效率

为了有效地测试这些模型,可能需要检查数据准备过程,在这种情况下,数据挖掘过程将回到阶段3。

5.评价

评估每个模型的结果以找到最合适的候选模型。模型必须符合以下标准:

  • 预测:模型可以根据现有数据得出预测结论
  • 准确:从模型中得到的见解必须与数据相对应
  • 相关:模型必须产生交付商定的业务目标的结果

如果没有候选模型满足这些标准,则该过程可能返回到步骤4,如果需要进一步的数据准备,则返回到步骤3

6.部署

部署数据挖掘模型,并针对可用数据进行工作。结果应该实现项目的目标,并提供可以为组织数据分析战略的下一步提供信息的见解。

如何执行数据挖掘?

CRISP-DM模型的第3到6步通常只发生在数据科学家创建挖掘算法的地方。

在企业使用中,数据团队通常会使用商业智能(BI)平台执行数据挖掘。常用平台包括Tableau Server、lookker、Amazon QuickSight和Microsoft Power BI。

这些平台还可以帮助改进和可视化洞察力。数据挖掘最终应该产生一些对业务有用的东西,比如新的趋势或有趣的相关性。

数据挖掘的最后一步是向相关利益相关者展示见解。这些有兴趣的团体会决定:

  • 数据挖掘项目是否达到了既定目标
  • 是否使用了正确的数据源,或者是否应该包括其他数据源
  • 挖掘结果是否代表新的知识或符合现有的业务理解
  • 数据团队是否应该继续进行更深入的分析

在某些情况下,可能需要进一步的采矿工作。这可能涉及回到CRISP-DM过程的开始。

术语汇编

数据集成技术的命名指南。

Baidu
map