什么是机器学习?

机器学习是人工智能的一个分支,研究自我改进算法。算法通过记录大量数据处理操作的结果来“学习”。随着时间的推移,算法无需显式编程就能改进其功能。

机器学习是如何工作的?

要理解机器学习,请考虑一个简单的用例。办公室的邮箱里有源源不断的来自客户的电子邮件。办公室经理想要一个自动系统,标记每封电子邮件并将其路由到正确的部门,以便支付查询到账单团队,产品查询到销售,等等。万博max手机网页登录

处理这个问题的一种方法是检查每封电子邮件的关键字,这些关键字可以存储在一个查找表中。文本中任何带有“支付”、“现金”或“余额”的内容都可以归为账单,而“购买”、“订单”或“产品”可以归为销售。万博max手机网页登录

这种算法在一定程度上是可行的,但开发人员必须在查找表中包含所有可能的关键字。他们还需要解决冲突——系统会在哪里发送一封电子邮件,说“我想为我最近的产品订单支付余额”?万博max手机网页登录

通过机器学习技术,算法每次处理数据时都会学习。在上面的例子中,算法可能会尝试将电子邮件路由到销售部门。这个操作将被标记为不正确,因此算法现在知道这个特定的短语是一个计费查询。未来类似性质的查询将直接路由到计费,无需任何人工干预。

机器学习的方法是什么?

所有机器学习方法都基于相同的基本原则:创建一个机器学习算法,并通过允许它处理大型数据集来“训练”它。根据期望的结果,有四种不同的方法来做到这一点:

监督式机器学习

在监督学习中,数据已经被标记为预测结果。在上面的示例中,传入的数据将被标记为正确的部门。

这些数据训练算法寻找一组特定的结果。该算法可以建立工作模型来描述基于历史值的分类和回归。

这些模型在处理一致的传入数据时非常有用。例如,信用卡交易数据通常相对统一。回归测试可以揭示任何不寻常的异常值,这可能表明存在欺诈。

无监督机器学习

在无监督学习中,算法被留下来为任何数据处理找出正确的结果。没有预先标记的数据可以依赖,算法必须处理数据,识别结构,并形成自己的模型。

通常,这涉及到集群、异常检测和对抗网络等技术。在没有数据标签的指导下,算法在数据中寻找自己的结构。

这在以下技术中很有用数据探索其中,对数据内容知之甚少。机器学习过程可以标记出可能适合进行更深入分析的有趣结构。

半监督机器学习

在半监督学习中,算法同时提供有标签和无标签的数据。标记的数据有助于算法推断正确的结果并构建功能模型。然后可以使用这些模型来处理未标记的数据。

在没有资源标记所有可用数据的情况下,半监督学习通常被用作一种折衷方案。万博手机登录平台机器学习算法可以利用它所拥有的东西来构建一组有效的数据规则。

自然语言处理(NLP)使用半监督学习。NLP处理书面或口头语言的处理。机器学习算法被提供了一个语料库——一本字典和一些情感分析数据——它会根据经验逐渐学会解释语言,增加细微差别。

强化学习

在强化学习中,算法可能会对一个问题尝试许多不同的解决方案。然后,它会比较结果,并学会选择最好的结果。

在上面的例子中,如果每个部门拒绝接受错误路由的电子邮件,学习就可以得到加强。算法可能会尝试将每封电子邮件发送到多个部门,并记录电子邮件是被接受还是被拒绝。当它把事情做好时,积极的反馈会加强正确的行为。

强化学习用于动态环境,如网络、物联网和机器人技术。这种算法可以快速响应突发变化。例如,如果一个网络路径发生故障,它可以开始通过不同的通道路由流量。

机器学习如何应用于数据存储?

机器学习不是一个独立的应用程序。相反,机器学习技术正被整合到大多数工具和平台中。这为数据的存储、检索和分析增加了一层额外的人工智能。

机器学习可以在标准操作中发挥重要作用,例如:

  • ETL:提取,转换,加载流程在加载到目标存储库之前对传入数据应用转换。由于数据的性质或质量,这些传入的数据在某种程度上可能是不可预测的。机器学习算法可以学习对变化做出反应,并确保平稳的数据流。
  • 数据集成:当集成多个数据源时,可能会导致错误、不兼容和数据丢失。可以部署机器学习算法来快速解决这些问题,减少人工干预的需要,并缩短整体处理时间。
  • 数据探索:数据探索是在数据中搜索可能不会立即可见的模式和集群的过程。在大型存储库中,例如数据湖这只能通过机器学习工具来完成。
  • 结构化数据:非结构化数据(如文件、图像、音频和文档)不是保存在表结构中。机器学习可以通过标记或创建元数据来帮助为数据添加结构。自然语言处理是这类机器学习的一种常见应用。

机器学习不是真正的人工智能,但它是目前应用最广泛的智能算法设计形式之一。

术语汇编

数据集成技术的命名指南。

Baidu
map