了解托管特征存储中的顶级实体
本文档描述了托管特征存储中的顶级实体。
若要详细了解托管功能商店,请访问什么是托管功能商店?资源。
特征存储
你可以通过特征存储来创建和管理特征集。 功能集是功能的集合。 可以选择将具体化商店(离线商店连接)与功能商店相关联,以定期预计算和保留功能。 利用这种方法,训练或推理期间的功能检索将更快、更可靠。
若要详细了解配置,请访问 CLI (v2) 功能商店 YAML 架构资源。
实体
实体会封装企业中逻辑实体的索引列。 实体的示例包括帐户实体、客户实体等。作为最佳做法,实体有助于在使用相同逻辑实体的功能集之间强制使用相同的索引列定义。
实体通常创建一次,即可跨功能集重复使用。 将对实体进行版本控制。
若要详细了解配置,请访问 CLI (v2) 功能实体 YAML 架构资源。
特征集规范和资产
功能集是由转换应用程序利用源系统数据生成的功能集合。 特征集封装了源、转换功能和具体化设置。 目前我们支持 PySpark 特征转换代码。
首先,创建功能集规范。 特征集规范是可以在本地开发和测试的特征集的自包含定义。
功能集规范通常由以下参数组成:
source
:此特征映射到哪些源transformation
(可选):应用于源数据以创建特征的转换逻辑。 在我们的例子中,我们使用 Spark 作为支持的计算。- 表示
index_columns
和timestamp_column
的列名:当用户尝试将特征数据与观测数据连接时,需要使用这些名称(稍后将详细介绍) materialization_settings
(可选):如果要将特征值缓存在具体化存储中以提高检索效率,则此选项是必需的。
在本地/开发环境中开发和测试功能集规范后,可以向功能商店将该规范注册为功能集资产。 功能集资产提供托管功能,例如版本控制和具体化。
若要详细了解功能集 YAML 规范,请访问 CLI (v2) 功能集规范 YAML 架构资源。
特征检索规范
功能检索规范是与模型关联的功能列表的可移植定义。 这可以帮助简化机器学习模型的开发和运行。 特征检索规范通常是训练管道的输入。 它有助于生成训练数据。 可以将其与模型一起打包。 此外,推理步骤还使用它来查找功能。 它整合了机器学习生命周期的所有阶段。 在试验和部署时,可以最大限度地减少对训练和推理管道的更改。
可以选择使用特征检索规范和内置特征检索组件。 如果需要,你可以直接使用 get_offline_features()
API。
若要详细了解功能检索 YAML 规范,请访问 CLI (v2) 功能检索规范 YAML 架构资源。