工作区特征存储(旧版)

注意

本文档介绍了工作区特征存储。 仅当工作区未启用 Unity Catalog 时才使用此页面。

Databricks 建议在 Unity 目录中使用特征工程。 工作区特征存储未来将被弃用。

为何要使用工作区特征存储?

工作区特征存储与 Azure Databricks 的其他组件完全集成。

  • 可发现性。 可从 Databricks 工作区访问特征存储 UI,可让你浏览和搜索现有特征。
  • 世系。 在 Azure Databricks 中创建功能表时,保存和访问用于创建功能表的数据源。 对于特征表中的每个特征,还可以访问使用该特征的模型、笔记本、作业和终结点。
  • 与模型评分和服务集成。 使用特征存储中的特征训练模型时,模型将与特征元数据一起打包。 使用模型进行批量评分或联机推理时,它会自动从特征存储中检索特征。 调用方无需了解这些特征或包括逻辑即可查找或联接特征以对新数据进行评分。 这使得模型部署和更新变得更容易。
  • 时间点查找。 特征存储支持需要时间点正确性的时序和基于事件的用例。

工作区特征存储的工作原理是什么?

使用特征存储的典型机器学习工作流遵循以下路径:

  1. 编写代码以将原始数据转换为特征,并创建一个包含所需特征的 Spark 数据帧。
  2. 将数据帧作为特征表写入到工作区特征存储中
  3. 使用特征存储中的特征训练模型。 执行此操作时,模型会存储用于训练的特征规范。 当模型用于推理时,它自动从相应的特征表中联接特征。
  4. 模型注册表中注册模型。

然后,可以使用该模型对新数据进行预测。 对于批处理用例,模型自动从特征存储中检索所需的特征。

批处理机器学习用例的特征存储工作流。

对于实时服务用例,将功能发布到联机存储。 请参阅第三方在线存储

在推理时,模型从联机存储中读取预先计算的特征,并将其与客户端请求中提供的数据联接到模型服务终结点。

提供的机器学习模型的特征存储流。

开始使用工作区特征存储

若要开始,请尝试使用这些示例笔记本。 基本笔记本将逐步引导你创建特征表、使用它来训练模型,然后使用自动特征查找执行批量评分。 它还介绍了特征工程 UI,演示了使用它来搜索特征并了解如何创建和使用特征。

基本工作区特征存储示例笔记本

获取笔记本

出租车示例笔记本演示了创建特征、更新特征并将特征用于模型训练和批量推理的过程。

工作区特征存储出租车示例笔记本

获取笔记本

支持的数据类型

有关支持的数据类型,请参阅支持的数据类型