HDInsight 中的机器学习

可以使用 HDInsight 通过大数据进行机器学习,以便从大量(千万亿字节甚至百亿亿字节)结构化、非结构化和快速移动的数据中获得有价值的见解。 HDInsight 中有多个机器学习选项:SparkML 和 Apache Spark MLlib、R、Apache Hive 以及 Microsoft Cognitive Toolkit。

SparkML 和 MLlib

HDInsight Spark 是 Azure 托管的 Apache Spark 产品/服务,它是统一的开源并行数据处理框架,支持使用内存中处理来大幅提升大数据分析性能。 Spark 处理引擎是专为速度、易用性和复杂分析打造的产品。 Spark 的内存中分布式计算功能使其成为机器学习和图形计算中使用的迭代算法的最佳选择。 有两个可缩放的机器学习库为此分布式环境带来了算法建模功能,这两个库是:MLlib 和 SparkML。 MLlib 包含构建在 RDD 基础之上的原始 API。 SparkML 是一个较新的包,提供构建在 DataFrames 基础之上的更高级 API,用于构造 ML 管道。 SparkML 目前尚不支持 MLlib 的所有功能,但正在取代 MLlib 成为 Spark 的标准机器学习库。

MMLSpark 是适用于 Apache Spark 的 Microsoft 机器学习库。 该库旨在提升数据科学家在 Spark 上的生产力,它不仅可以提高试验成功率,而且还能在极大型数据集上利用前沿的机器学习技术,包括深度学习。 MMLSpark 在生成可缩放 ML 模型(例如编制字符串的索引、强制数据进入机器学习算法预期的布局中、组合特征矢量)时,可以在 SparkML 的低级别 API 基础上提供一个层。 MMLSpark 库简化了可在 PySpark 中生成模型的这些任务以及其他常见任务。

Azure 机器学习和 Apache Hive

Azure 机器学习不仅提供预测分析建模工具,还提供完全托管的服务,可以通过此服务将预测模型部署为随时可用的 Web 服务。 Azure 机器学习是云中的完整预测分析解决方案,可以用来创建、测试、操作和管理预测模型。 可以从大型算法库中进行选择、使用基于 Web 的工作室来构建模型,然后将模型轻松部署为 Web 服务。

Microsoft Azure machine learning overview

使用 Hive 查询,在 HDInsight Hadoop 群集中创建数据特征。 特征工程尝试通过从原始数据创建特征,简化学习过程,从而增加学习算法的预测能力。 可以使用“导入数据”模块从 Azure 机器学习工作室(经典)运行 HiveQL 查询,以及访问在 Hive 中处理和在 Blob 存储中存储的数据。

Microsoft 认知工具包

深度学习是机器学习的一个分支,使用神经网络是受人类大脑的生物学过程启发。 许多研究人员将深度学习视为有前景的可增强人工智能的方法。 深度学习的例子包括口译工具、图像识别系统和计算机推理。

为了推进自身在深度学习方面的工作,Microsoft 开发了免费、易用的开源 Microsoft 认知工具包。 各种 Microsoft 产品、世界各地需要大规模部署深度学习的公司,以及对最新算法和技术感兴趣的学生都在使用该工具包。

另请参阅

方案

深度学习资源