使用 pyspark.ml.connect
在 Databricks Connect 上训练 Spark ML 模型
重要
此功能目前以公共预览版提供。
本文提供了一个示例,演示如何使用 pyspark.ml.connect
模块执行分布式训练,以训练 Spark ML 模型并在 Databricks Connect 上运行模型推理。
pyspark.ml.connect
是什么?
Spark 3.5 引入了 pyspark.ml.connect
,旨在支持 Spark 连接模式和 Databricks Connect。 详细了解 Databricks Connect。
pyspark.ml.connect
模块包括常见的学习算法和实用工具,包括分类、功能转换器、ML 管道和交叉验证。 此模块提供与旧版 pyspark.ml
模块类似的接口,但 pyspark.ml.connect
模块目前仅包含 pyspark.ml
中的一部分算法。 下面列出了支持的算法:
- 分类算法:
pyspark.ml.connect.classification.LogisticRegression
- 功能转换器:
pyspark.ml.connect.feature.MaxAbsScaler
和pyspark.ml.connect.feature.StandardScaler
- 计算器:
pyspark.ml.connect.RegressionEvaluator
、pyspark.ml.connect.BinaryClassificationEvaluator
和MulticlassClassificationEvaluator
- 管道:
pyspark.ml.connect.pipeline.Pipeline
- 模型优化:
pyspark.ml.connect.tuning.CrossValidator
要求
- 对群集设置 Databricks Connect。 Databricks Connect 的群集配置。
- 已安装 Databricks Runtime 14.0 ML 或更高版本。
Assigned
的群集访问模式。
示例笔记本
以下笔记本演示如何在 Databricks Connect 上使用分布式 ML:
Databricks Connect 上的分布式 ML
对于 pyspark.ml.connect
中 API 的相关参考信息,Databricks 建议使用 Apache Spark API 参考