深度学习管道迁移指南

重要

本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。 请参阅 Databricks 上的 AI 和机器学习

本页提供了有关从 Databricks Runtime 6.6 ML 及更低版本中包含的开放源代码深度学习管道包进行迁移的技巧。 Databricks Runtime 7.0 ML(不受支持)中删除了深度学习管道库 sparkdl 的某些部分,具体来说,就是 Apache Spark ML 管道中使用的“转换器”和“估算器”。

本页不是有关 Azure Databricks 上的深度学习管道的常规信息资源。

读取图像

深度学习管道包包含图像读取器 sparkdl.image.imageIODatabricks Runtime 7.0 ML(不受支持)中已删除该读取器。

请改用 Apache Spark 中的图像数据源二进制文件数据源加载用于机器学习和深度学习的数据中的许多示例笔记本都显示了这两个数据源的用例。

迁移学习

深度学习管道包包含 Spark ML 转换器 sparkdl.DeepImageFeaturizer,可促进深度学习模型中的迁移学习。 Databricks Runtime 7.0 ML(不受支持)中已经删除了 DeepImageFeaturizer

请改用 pandas UDF 在深度学习模型中执行特征化。 pandas UDF 及其更新的变体 Scalar Iterator pandas UDF 提供更灵活的 API,支持更多深度学习库并提供更好的性能。

有关使用 pandas UDF 进行迁移学习的示例,请参阅用于迁移学习的特征化

分布式超参数优化

深度学习管道包包含 Spark ML 估算器 sparkdl.KerasImageFileEstimator,可用于通过 Spark ML 优化实用程序优化超参数。 Databricks Runtime 7.0 ML(不受支持)中已经删除了 KerasImageFileEstimator

请改用使用 Hyperopt 进行超参数优化,为深度学习模型分发超参数优化。

分布式推理

深度学习管道包包含多个用于分发推理的 Spark ML 转换器,Databricks Runtime 7.0 ML(不受支持)中已经删除了这些转换器:

  • DeepImagePredictor
  • TFImageTransformer
  • KerasImageFileTransformer
  • TFTransformer
  • KerasTransformer

改用 pandas UDF 在 Spark 数据帧上运行推理,按部署模型进行批量推理和预测中的示例操作。

将模型部署为 SQL UDF

深度学习管道包包含实用程序 sparkdl.udf.keras_image_model.registerKerasImageUDF,可用于将深度学习模型部署为可从 Spark SQL 调用的 UDF。 Databricks Runtime 7.0 ML(不受支持)中已经删除了 registerKerasImageUDF

请按照 Azure ML 上的 scikit-learn 模型部署中的示例,改用 MLflow 将模型导出为 UDF。