本文介绍托管特性存储中的最顶层实体。
有关托管功能存储的详细信息,请参阅 什么是托管功能存储?。
特征存储
你可以通过特征存储来创建和管理特征集。 功能集是功能的集合。 可以选择将具体化存储(脱机存储连接)与特征存储关联起来,以便定期预计算和持久化保存特征。 利用这种方法,训练或推理期间的功能检索将更快、更可靠。
有关配置的详细信息,请参阅 CLI (v2) 功能存储 YAML 架构 资源。
实体
实体会封装企业中逻辑实体的索引列。 实体的示例包括帐户实体、客户实体等。 实体帮助推动最佳实践,即在使用相同逻辑实体的功能集中使用相同的索引列定义。
通常,创建一次实体,然后跨功能集重复使用它们。 将对实体进行版本控制。
有关配置的详细信息,请参阅 CLI (v2) 功能实体 YAML 架构 资源。
特征集规范和资产
功能集是通过对源系统数据应用转换生成的功能的集合。 特征集封装了源、转换功能和具体化设置。 目前,特征存储支持 PySpark 特征转换代码。
首先,创建功能集规范。 功能集规范是可在本地开发和测试的功能集的自包含定义。
功能集规范通常由以下参数组成:
-
source:此功能映射到的源 -
transformation(可选):应用于源数据以创建特征的转换逻辑。 在这种情况下,Spark 是受支持的计算。 - 表示
index_columns和timestamp_column的列名:当用户尝试将特征数据与观测数据连接时,需要使用这些名称(稍后将详细介绍) -
materialization_settings(可选):如果要将特征值缓存在具体化存储中以提高检索效率,则此选项是必需的。
在本地或开发环境中开发和测试功能集规格后,可以在功能存储中将规格注册为功能集资产。 特性集资产提供管理功能,例如版本控制与转换。
有关功能集 YAML 规范的详细信息,请参阅 CLI (v2) 功能集规范 YAML 架构 资源。
特征检索规范
功能检索规范是与模型关联的功能列表的可移植定义。 这可以帮助简化机器学习模型的开发和运行。 特征检索规范通常是训练管道的输入。 它有助于生成训练数据。 可以将其与模型一起打包。 此外,推理步骤还使用它来查找功能。 它整合了机器学习生命周期的所有阶段。 在试验和部署时,可以最大限度地减少对训练和推理管道的更改。
可以选择使用特征检索规范和内置特征检索组件。 如果需要,你可以直接使用 get_offline_features() API。
有关功能检索 YAML 规范的详细信息,请参阅 CLI (v2) 功能检索规范 YAML 架构 资源。