使用 MLlib 进行特征工程处理

Apache Spark MLlib 包含许多用于大规模执行特征工程处理的实用函数,包括对特征编码和转换特征的方法。 这些方法还可用于处理其他机器学习库的特征。

Azure Databricks 建议使用以下 Apache Spark MLLib 指南:

这个基于 PySpark 的笔记本包含预处理步骤,这些步骤使用类别索引和独热编码将分类数据转换为数值变量。

二元分类示例

获取笔记本