本页概述了将 Databricks 功能存储与 Unity 目录配合使用时可用的功能。
Databricks 功能存储为 AI 和 ML 模型中使用的功能提供了一个中心注册表。 功能表和模型在 Unity 目录中注册,提供内置治理、世系和跨工作区功能共享和发现。 借助 Databricks,整个模型训练工作流在单个平台上进行,包括:
- 用于引入原始数据、创建特征表、训练模型和执行批量推理的数据管道。
- 可通过一键访问并提供毫秒级延迟的模型和特征服务终结点。
- 数据和模型监测
使用功能存储中的特征来训练模型时,模型会自动跟踪定型中使用的特征的世系。 在推理时,模型会自动查找最新的特征值。 功能存储还为实时应用程序提供功能的按需计算。 功能存储处理所有功能计算任务。 这消除了训练/服务偏斜,确保推理中使用的特征计算与模型训练期间使用的功能计算相同。 它还大大简化了客户端代码,因为所有功能查找和计算都由功能存储处理。
注释
本页介绍适用于已启用 Unity Catalog 的工作区的特征工程和服务功能。 如果你的工作区未启用 Unity Catalog,请参阅工作区特征存储(旧版)。
概念概述
有关 Databricks 功能存储的工作原理和术语表的概述,请参阅 概念。
特征工程
功能 / 特点 | Description |
---|---|
在 Unity 目录中处理功能表 | 创建和使用功能表。 |
发现和共享功能
功能 / 特点 | Description |
---|---|
浏览 Unity 目录中的功能 | 使用目录资源管理器和功能 UI 浏览和管理功能表。 |
在 Unity 目录中将标记与功能表和功能配合使用 | 使用简单的键值对对功能表和功能进行分类和管理。 |
在训练工作流中使用功能
功能 / 特点 | Description |
---|---|
使用功能训练模型 | 使用功能训练模型。 |
时间点功能联接 | 使用时间点正确性创建一个训练数据集,该数据集反映记录标签观察的时间特征值。 |
Python API | Python API 参考 |
服务功能
功能 / 特点 | Description |
---|---|
功能服务终结点 | 为 Databricks 外部的模型和应用程序提供功能。 |
按需功能计算 | 在推理时计算特征值。 |
特征治理和世系
功能 / 特点 | Description |
---|---|
功能治理和世系 | 使用 Unity 目录控制对功能表的访问,并查看特征表、模型或函数的世系。 |
Tutorials
Tutorial | Description |
---|---|
要开始使用的示例笔记本 |
基本笔记本。 演示如何创建特征表、使用它来训练模型,以及如何使用自动功能查找运行批处理评分。 此外,还显示了用于搜索特征和查看世系的功能工程 UI。 出租车示例笔记本。 显示创建功能、更新特征以及将它们用于模型训练和批处理推理的过程。 |
示例:对结构化 RAG 应用程序使用功能 | 演示如何使用 Databricks 联机表和功能服务终结点来检索扩充生成(RAG)应用程序的教程。 |
要求
- 必须为 Unity Catalog 启用你的工作区。
- Unity Catalog 中的特征工程需要 Databricks Runtime 13.3 LTS 或更高版本。
如果你的工作区不满足这些要求,请参阅工作区特征存储(旧版)来了解如何使用旧版工作区特征存储。
支持的数据类型
Unity Catalog 中的特征工程和旧版工作区特征存储支持以下 PySpark 数据类型:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
-
BinaryType
[1] -
DecimalType
[1] -
MapType
[1] -
StructType
[2]
[1] Unity Catalog 和工作区特征存储 v0.3.5 或更高版本中所有版本的特征工程都支持 BinaryType
、DecimalType
和 MapType
。
[2] 特征工程 v0.6.0 或更高版本支持 StructType
。
上面列出的数据类型支持机器学习应用程序中常见的特征类型。 例如:
- 可以将稠密矢量、张量和嵌入存储为
ArrayType
。 - 可以将稀疏矢量、张量和嵌入存储为
MapType
。 - 可以将文本存储为
StringType
。
发布到在线商店时,ArrayType
和 MapType
特征以 JSON 格式存储。
特征存储 UI 显示有关特征数据类型的元数据:
详细信息
有关最佳实践的详细信息,请下载特征存储综合指南。