什么是数据探索?

数据探索提供了对可用数据源的初步分析。而不是试图提供精确的见解,如那些结果数据分析,数据探索的重点是识别关键趋势和重要变量。

数据探索也被称为探索性数据分析。

数据探索如何在企业中使用?

在进行更多资源密集型分析工作之前,数据探索通常被用作第一步。当处理大量不熟悉的数据集时,或者当分析团队试图找出从哪里寻找有用的见解时,这种方法非常有用。

数据探索有助于回答关于数据的两个重要问题:

  • 最重要的变量是什么?
  • 这些变量之间的关系是什么?

举个例子,如果一家公司发现平均客户支出出现反复变化,这可能会在商业中发挥作用。这个值可能与另一个值相关,例如每个月初的特价。通过识别这种相关性,分析师就知道在洞察客户行为时应该关注哪些方面。

数据探索方法

数据探索通常是自动化的,特别是在处理大数据.探索可以使用Microsoft等工具完成SandDance或者MIT的开源软件潜水

在某些情况下,分析工程师可能会使用手动技术对较小的数据集执行探索性数据分析。这可以通过数据探索工具、用Python或R编写应用程序,或者简单地在Excel等应用程序中查看数据来实现。

无论是手动还是自动,数据探索使用几种统计技术来识别重要变量,例如:

单变量分析

单变量是不需要进一步上下文就可以提供洞察的变量。这些变量分为三类:

  • 离散:数值,例如每天的客户数量。分析人员可能会查看惟一值的总和、平均值或计数。
  • 连续:相对刻度上的数字,如百分比。分析人员通常会关注这些值的范围(最高和最低之间的差异)。
  • 分类:重复出现的文本值,如美国客户地址中的州。分析人员经常计算这些变量出现的频率。

相关分析

许多变量与另一个变量有某种程度的相关性,这可以用统计技术来衡量,例如比较每个变量的标准差。

分析师不是调查每一个相关性,而是关注相关性最高的那些。通常,他们创建一个网格或矩阵来提供一个统一的相关性视图,允许他们识别最有希望的关系。

聚类分析

聚类有助于识别适用于某些数据的相关性,但不是所有数据。在人工勘探中,这可以通过将数据绘制成散点图来可视化地完成。可能的相关性将以密集的簇形式出现在结果图表中——因此得名。

集群还可以作为分割,即当分析人员为了进一步探索的目的而专注于数据的一个离散分段时。

数据探索有时可以产生对业务有直接价值的可操作的见解。然而,在大多数情况下,这种类型的分析作为更密集的分析项目的起点。

术语汇编

数据集成技术的命名法指南。

Baidu
map