预处理数据

可以使用 Databricks 功能存储来创建新功能,探索和重复使用现有功能,选择用于对机器学习模型进行训练和评分的功能,并将功能发布到低延迟在线存储空间,以实现实时推理。

对于大型数据集,可使用 Spark SQL 和 MLlib 进行特征工程处理。 Databricks Runtime ML 中包含的第三方库(例如 scikit-learn)也提供了有用的帮助程序方法。 相关示例,请参阅下面关于 scikit-learn 和 MLlib 的机器学习笔记本:

对于更复杂的深度学习特征处理,该示例笔记本演示了如何使用迁移学习进行特征化处理: