다음을 통해 공유

Databricks 功能存储

本页概述了将 Databricks 功能存储与 Unity 目录配合使用时可用的功能。

Databricks 功能存储为 AI 和 ML 模型中使用的功能提供了一个中心注册表。 功能表和模型在 Unity 目录中注册,提供内置治理、世系和跨工作区功能共享和发现。 借助 Databricks,整个模型训练工作流在单个平台上进行,包括:

  • 用于引入原始数据、创建特征表、训练模型和执行批量推理的数据管道。
  • 可通过一键访问并提供毫秒级延迟的模型和特征服务终结点。
  • 数据和模型监测

使用功能存储中的特征来训练模型时,模型会自动跟踪定型中使用的特征的世系。 在推理时,模型会自动查找最新的特征值。 功能存储还为实时应用程序提供功能的按需计算。 功能存储处理所有功能计算任务。 这消除了训练/服务偏斜,确保推理中使用的特征计算与模型训练期间使用的功能计算相同。 它还大大简化了客户端代码,因为所有功能查找和计算都由功能存储处理。

注释

本页介绍适用于已启用 Unity Catalog 的工作区的特征工程和服务功能。 如果你的工作区未启用 Unity Catalog,请参阅工作区特征存储(旧版)

概念概述

有关 Databricks 功能存储的工作原理和术语表的概述,请参阅 概念

特征工程

功能 / 特点 Description
在 Unity 目录中处理功能表 创建和使用功能表。

发现和共享功能

功能 / 特点 Description
浏览 Unity 目录中的功能 使用目录资源管理器和功能 UI 浏览和管理功能表。
在 Unity 目录中将标记与功能表和功能配合使用 使用简单的键值对对功能表和功能进行分类和管理。

在训练工作流中使用功能

功能 / 特点 Description
使用功能训练模型 使用功能训练模型。
时间点功能联接 使用时间点正确性创建一个训练数据集,该数据集反映记录标签观察的时间特征值。
Python API Python API 参考

服务功能

功能 / 特点 Description
功能服务终结点 为 Databricks 外部的模型和应用程序提供功能。
按需功能计算 在推理时计算特征值。

特征治理和世系

功能 / 特点 Description
功能治理和世系 使用 Unity 目录控制对功能表的访问,并查看特征表、模型或函数的世系。

Tutorials

Tutorial Description
要开始使用的示例笔记本 基本笔记本。 演示如何创建特征表、使用它来训练模型,以及如何使用自动功能查找运行批处理评分。 此外,还显示了用于搜索特征和查看世系的功能工程 UI。
出租车示例笔记本。 显示创建功能、更新特征以及将它们用于模型训练和批处理推理的过程。
示例:对结构化 RAG 应用程序使用功能 演示如何使用 Databricks 联机表和功能服务终结点来检索扩充生成(RAG)应用程序的教程。

要求

  • 必须为 Unity Catalog 启用你的工作区。
  • Unity Catalog 中的特征工程需要 Databricks Runtime 13.3 LTS 或更高版本。

如果你的工作区不满足这些要求,请参阅工作区特征存储(旧版)来了解如何使用旧版工作区特征存储。

支持的数据类型

Unity Catalog 中的特征工程和旧版工作区特征存储支持以下 PySpark 数据类型

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] Unity Catalog 和工作区特征存储 v0.3.5 或更高版本中所有版本的特征工程都支持 BinaryTypeDecimalTypeMapType。 [2] 特征工程 v0.6.0 或更高版本支持 StructType

上面列出的数据类型支持机器学习应用程序中常见的特征类型。 例如:

  • 可以将稠密矢量、张量和嵌入存储为 ArrayType
  • 可以将稀疏矢量、张量和嵌入存储为 MapType
  • 可以将文本存储为 StringType

发布到在线商店时,ArrayTypeMapType 特征以 JSON 格式存储。

特征存储 UI 显示有关特征数据类型的元数据:

复杂数据类型示例

详细信息

有关最佳实践的详细信息,请下载特征存储综合指南