数据挖掘是探索大数据以揭示未被发现的模式和规则的过程。这个过程也被称为知识发现。
数据挖掘通常发生在数据分析之前。挖掘可以帮助发现业务以前可能没有意识到的模式,例如两个变量之间的相关性。然后,分析可以用于测试基于从采矿中收集到的见解的假设。
什么是数据挖掘过程?
数据挖掘是一个涉及统计学、机器学习和数据库技术的复杂过程。
数据挖掘最常用的流程模型之一是CRISP-DMModel,自20世纪90年代以来一直在使用的开源标准。该模型将数据挖掘分解为六个步骤:
1.业务的理解
在初始阶段,涉众讨论数据挖掘项目的范围和目标。此对话有助于确定使用哪些数据源,需要哪些业务结果,以及将向数据挖掘团队提供哪些资源。万博手机登录平台
2.数据的理解
接下来,会有一个阶段数据探索.这涉及到对可用数据源的高级检查。在这一阶段,有希望的趋势是突出的,这些将是未来采矿的目标。Tableau或Grapher等工具可以帮助执行这种初始分析。
3.数据准备
为便于挖掘,请根据实际情况准备数据。这可以包括:
此阶段可能通过ETL (提取转换负载)层,使资料准备过程自动化。像Xplenty这样的ETL平台可以从大多数常见的数据源准备数据,而不需要人工干预。
4.建模
数据挖掘团队将尝试许多模型来探索可用的数据。这些模型包括:
- 线性回归:确定多个值之间的关系,然后使用这些关系预测未来的值
- 决策树(或回归树):一种使用一系列二进制值来解释数据的建模技术
- 神经网络:一遍又一遍地重复问题的机器学习算法,在每次迭代中逐渐变得更有效率
为了有效地测试这些模型,可能需要检查数据准备过程,在这种情况下,数据挖掘过程将回到阶段3。
5.评价
评估每个模型的结果以找到最合适的候选模型。模型必须符合以下标准:
- 预测:的模型可以根据现有数据得出预测结论
- 准确:从模型中得到的见解必须与数据相对应
- 相关:模型必须产生交付商定的业务目标的结果
如果没有候选模型满足这些标准,则该过程可能返回到步骤4,如果需要进一步的数据准备,则返回到步骤3.
6.部署
部署数据挖掘模型,并针对可用数据进行工作。结果应该实现项目的目标,并提供可以为组织数据分析战略的下一步提供信息的见解。
如何执行数据挖掘?
CRISP-DM模型的第3到6步通常只发生在数据科学家创建挖掘算法的地方。
在企业使用中,数据团队通常会使用商业智能(BI)平台执行数据挖掘。常用平台包括Tableau Server、lookker、Amazon QuickSight和Microsoft Power BI。
这些平台还可以帮助改进和可视化洞察力。数据挖掘最终应该产生一些对业务有用的东西,比如新的趋势或有趣的相关性。
数据挖掘的最后一步是向相关利益相关者展示见解。这些有兴趣的团体会决定:
- 数据挖掘项目是否达到了既定目标
- 是否使用了正确的数据源,或者是否应该包括其他数据源
- 挖掘结果是否代表新的知识或符合现有的业务理解
- 数据团队是否应该继续进行更深入的分析
在某些情况下,可能需要进一步的采矿工作。这可能涉及回到CRISP-DM过程的开始。