什么是大数据?

大数据是一个术语,用于大型数据集,包括结构化、半结构化和非结构化数据。

企业最早开始在关系数据库的帮助下存储和分析数据是在上世纪70年代。然而,21世纪初互联网的普及导致社交媒体、视频和音频流媒体产生的数据激增。这些数据的特点是在非常高的速度下生成的数据量很大。此外,它是结构化和非结构化数据的混合。Roger Mougalas在2005年创造了“大数据”一词,用来描述传统分析工具(如关系数据库)无法处理的大型数据集。

大数据与普通数据有何不同?

大数据有三个v的特征,这是它与互联网时代之前的数据的区别。这些都是:

  • 体积:互联网的广泛使用导致每分钟产生大量低密度数据。
  • 速度:海量数据的生成速度非常快。据估计,每分钟产生大约1.5MB的数据。
  • 品种:数据来自各种来源,如视频流、Twitter feed、文本和音频流。它主要是几种不同格式的非结构化数据,在进行分析之前需要对其进行转换。

大数据的挑战是什么?

为了从大数据中获取见解和趋势,首先需要将其集成到一个中央数据存储库中。然而,由于大数据包含多种不同格式的数据,关键的挑战是在将数据加载到存储库之前将其转换为通用语言。ETL工具可以帮助解决这个问题。

下一个挑战是大规模分析数千拍字节的数据。开源框架,比如Apache Hadoop,允许同时分析计算机集群上的分布式数据集。

如何使用大数据?

今天的组织可以从不同的数据源获得大量关于消费者行为和使用模式的信息。如果分析正确,大数据可以挖掘出趋势和洞见,帮助企业做出关键的商业决策。大数据可以帮助解决的一些挑战有:

  • 新产品开万博max手机网页登录发:借助来自社交媒体、用户调查和社交倾听的数据,公司可以预测新的产品细分市场。万博max手机网页登录它还可以被媒体公司用来识别音乐、电影和时尚领域的新兴艺术家和趋势。
  • 预测:在传感器和历史数据的帮助下,制造企业可以预测设备故障并进行主动维护。这可以帮助他们优化维护成本,增加设备正常运行时间。大数据还可以用于财务预测等。
  • 欺诈检测:银行和金融机构越来越多地使用大数据来识别欺诈交易。它也被企业用于机器人检测。
  • 机器学习:大数据是机器学习算法的基础,它有大量的应用,包括图像和语音识别、视频监控和交通预测等。

术语汇编

数据集成技术的命名法指南。

Baidu
map