将时序特征表和时间点支持配合使用

用于训练模型的数据通常内置了时间依赖项。 例如,如果你要训练某个模型以预测工厂车间中的哪些机器需要维护,则可能需要提供包含许多机器的传感器测量值和使用情况数据的历史数据集,以及指示机器是否需要检修的目标标签。 数据集可能包含执行维护服务之前和之后的机器数据。

生成模型时,只能考虑观测到目标值之前的特征值(需要检修或不需要检修)。 如果你不清楚地考虑每个观测项的时间戳,则可能会无意中使用目标值时间戳之后测得的特征值进行训练。 这称为“数据泄漏”,它可能对模型的性能产生负面影响。

时序特征表包括一个时间戳键列,该列确保训练数据集中的每一行代表截至该行的时间戳的最新已知特征值。 只要特征值会不断变化(例如,在使用时序数据、基于事件的数据或时间聚合数据时),就应该使用时序特征表。

注意

  • 使用 Databricks Runtime 13.2 及更高版本,Unity Catalog 中具有主键和时间戳键的任何 Delta 表都可以用作时序特征表。 建议对时序表应用 Z 排序 ,以提高时间点查找的性能。
  • 时间点查找功能有时称为“按时间顺序查看”。 Databricks 特征存储中的时间点功能与 Delta Lake 按时间顺序查看无关。
  • 若要使用时间点功能,必须使用 timeseries_columns 参数(适用于 Unity Catalog 中的特征工程)或 timestamp_keys 参数(适用于工作区特征存储)指定与时间相关的键。 这指示应该通过匹配不晚于 timestamps_keys 列值的特定主键的最新值来联接特征表行,而不是基于精确时间匹配进行联接。 如果你仅将时序列指定为主键列,则特征存储不会在联接期间将时间点逻辑应用于时序列。 它只匹配具有精确时间匹配项的行,而不匹配时间戳之前的所有行。

时序特征表的工作原理

假设你有以下特征表。 此数据摘自示例笔记本

这些表包含房间内温度、相对湿度、环境光和二氧化碳的传感器测量数据。 地面实况表指示房间内是否有人。 每个表包含一个主键(“room”)和一个时间戳键(“ts”)。 为简单起见,仅显示了主键(“0”)的单个值的数据。

example feature table data

下图演示了如何使用时间戳键来确保训练数据集中的时间点正确性。 特征值是使用 AS OF 联接根据主键(图中未显示)和时间戳键匹配的。 AS OF 联接确保在训练集中使用在时间戳时间提供的最新特征值。

how point in time works

如图所示,训练数据集包括该时间戳之前每个传感器在地面实况上观测的最新特征值。

如果在不考虑时间戳键的情况下创建训练数据集,可能会有一行包含这些特征值和观测的地面实况:

temp rh co2 地面实况
15.8 32 212 630 0

但是,这并不是对训练有效的观测数据,因为 630 的 co2 读数是在 8:50 测得的,而此时间戳在地面实况观测时间戳 (8:52) 之后。 将来的数据会“泄漏”到训练集,这会损害模型的性能。

要求

  • 对于 Unity Catalog 中的特征工程:Unity Catalog 客户端中的特征工程(任何版本)
  • 对于工作区特征存储:特征存储客户端 v0.3.7 及更高版本

在 Unity Catalog 中创建时序功能表

在 Unity Catalog 中,具有 TIMESERIES 主键的任何表都是时序功能表。 请参阅在 Unity Catalog 中创建功能表,了解如何创建功能表。

在本地工作区中创建时序功能表

若要在本地工作区特征存储中创建时序特征表,数据帧或架构必须包含指定为时间戳键的列。

从功能存储客户端 v0.13.4 开始,必须在 primary_keys 参数中指定时间戳键列。 时间戳键是“主键”的一部分,用于唯一标识功能表中的每一行。 与其他主键列一样,时间戳键列不能包含 NULL 值。

Unity Catalog 中的特征工程

fe = FeatureEngineeringClient()
# user_features_df DataFrame contains the following columns:
# - user_id
# - ts
# - purchases_30d
# - is_free_trial_active
fe.create_table(
  name="ml.ads_team.user_features",
  primary_keys=["user_id", "ts"],
  timeseries_columns="ts",
  features_df=user_features_df,
)

工作区特征存储客户端 v0.13.4 及更高版本

fs = FeatureStoreClient()
# user_features_df DataFrame contains the following columns:
# - user_id
# - ts
# - purchases_30d
# - is_free_trial_active
fs.create_table(
  name="ads_team.user_features",
  primary_keys=["user_id", "ts"],
  timestamp_keys="ts",
  features_df=user_features_df,
)

工作区特征存储客户端 v0.13.3 及更低版本

fs = FeatureStoreClient()
# user_features_df DataFrame contains the following columns:
# - user_id
# - ts
# - purchases_30d
# - is_free_trial_active
fs.create_table(
  name="ads_team.user_features",
  primary_keys="user_id",
  timestamp_keys="ts",
  features_df=user_features_df,
)

时序特征表必须有一个时间戳键,并且不能包含任何分区列。 时间戳键列必须为 TimestampTypeDateType

Databricks 建议不要在时序特征表中包含两个以上的主键列,以确保高性能的写入和查找。

更新时序特征表

将特征写入时序特征表时,数据帧必须为特征表的所有特征提供值,这与常规特征表不同。 此约束减少了时序特征表中不同时间戳的特征值的稀疏性。

Unity Catalog 中的特征工程

fe = FeatureEngineeringClient()
# daily_users_batch_df DataFrame contains the following columns:
# - user_id
# - ts
# - purchases_30d
# - is_free_trial_active
fe.write_table(
  "ml.ads_team.user_features",
  daily_users_batch_df,
  mode="merge"
)

工作区特征存储客户端 v0.13.4 及更高版本

fs = FeatureStoreClient()
# daily_users_batch_df DataFrame contains the following columns:
# - user_id
# - ts
# - purchases_30d
# - is_free_trial_active
fs.write_table(
  "ads_team.user_features",
  daily_users_batch_df,
  mode="merge"
)

支持流式写入时序特征表。

使用时序特征表创建训练集

若要对时序特征表中的特征值执行时间点查找,必须在特征的 FeatureLookup 中指定一个指示数据帧列名称的 timestamp_lookup_key,该列包含查找时序特征时所依据的时间戳。 Databricks 特征存储检索在数据帧的 timestamp_lookup_key 列中指定的时间戳之前的、其主键(不包括时间戳键)与数据帧的 lookup_key 列中的值匹配的最新特征值,如果不存在此类特征值,则检索 null

Unity Catalog 中的特征工程

feature_lookups = [
  FeatureLookup(
    table_name="ml.ads_team.user_features",
    feature_names=["purchases_30d", "is_free_trial_active"],
    lookup_key="u_id",
    timestamp_lookup_key="ad_impression_ts"
  ),
  FeatureLookup(
    table_name="ml.ads_team.ad_features",
    feature_names=["sports_relevance", "food_relevance"],
    lookup_key="ad_id",
  )
]

# raw_clickstream DataFrame contains the following columns:
# - u_id
# - ad_id
# - ad_impression_ts
training_set = fe.create_training_set(
  df=raw_clickstream,
  feature_lookups=feature_lookups,
  exclude_columns=["u_id", "ad_id", "ad_impression_ts"],
  label="did_click",
)
training_df = training_set.load_df()

工作区特征存储

feature_lookups = [
  FeatureLookup(
    table_name="ads_team.user_features",
    feature_names=["purchases_30d", "is_free_trial_active"],
    lookup_key="u_id",
    timestamp_lookup_key="ad_impression_ts"
  ),
  FeatureLookup(
    table_name="ads_team.ad_features",
    feature_names=["sports_relevance", "food_relevance"],
    lookup_key="ad_id",
  )
]

# raw_clickstream DataFrame contains the following columns:
# - u_id
# - ad_id
# - ad_impression_ts
training_set = fs.create_training_set(
  df=raw_clickstream,
  feature_lookups=feature_lookups,
  exclude_columns=["u_id", "ad_id", "ad_impression_ts"],
  label="did_click",
)
training_df = training_set.load_df()

对时序特征表执行的任何 FeatureLookup 必须是时间点查找,因此它必须指定要在数据帧中使用的 timestamp_lookup_key 列。 时间点查找不会跳过包含时序特征表中存储的 null 特征值的行。

为历史特征值设置时间限制

使用特征存储客户端 v0.13.0 或更高版本,或者 Unity Catalog 客户端中的任何特征工程版本,可以从训练集中排除时间戳较旧的特征值。 使用 FeatureLookup 中的 lookback_window 参数。

lookback_window 的数据类型必须为 datetime.timedelta,默认值为 None(使用所有特征值,而不考虑存在时长)。

例如,以下代码排除超过 7 天的任何功能值:

Unity Catalog 中的特征工程

from datetime import timedelta

feature_lookups = [
  FeatureLookup(
    table_name="ml.ads_team.user_features",
    feature_names=["purchases_30d", "is_free_trial_active"],
    lookup_key="u_id",
    timestamp_lookup_key="ad_impression_ts",
    lookback_window=timedelta(days=7)
  )
]

工作区特征存储

from datetime import timedelta

feature_lookups = [
  FeatureLookup(
    table_name="ads_team.user_features",
    feature_names=["purchases_30d", "is_free_trial_active"],
    lookup_key="u_id",
    timestamp_lookup_key="ad_impression_ts",
    lookback_window=timedelta(days=7)
  )
]

使用上述 FeatureLookup 调用 create_training_set 时,它会自动执行时间点联接,并排除早于 7 天的功能值。

回溯窗口在训练和批量推理期间应用。 联机推理期间,始终使用最新的特征值,而不考虑回溯窗口。

使用时序特征表为模型评分

当你使用时序特征表中的特征为训练的模型评分时,Databricks 特征存储将使用在训练期间与模型一起打包的元数据通过时间点查找来检索适当的特征。 提供给 FeatureEngineeringClient.score_batch(适用于 Unity Catalog 中的特征工程)或 FeatureStoreClient.score_batch(适用于工作区特征存储)的数据帧必须包含名称和 DataType 与提供给 FeatureEngineeringClient.create_training_setFeatureStoreClient.create_training_setFeatureLookuptimestamp_lookup_key 相同的时间戳列。

将时序特征发布到联机存储

可以使用 FeatureEngineeringClient.publish_table(适用于 Unity Catalog 中的特征工程)或 FeatureStoreClient.publish_table (适用于工作区特征存储)将时序特征表发布到在线商店。 Databricks 特征存储根据创建了联机存储的 OnlineStoreSpec,提供用于将快照或某个时段的时序数据发布到该联机存储的功能。 下表显示了每种发布模式的详细信息。

联机存储提供者 快照发布模式 时段发布模式
Azure Cosmos DB(v0.5.0 及更高版本) X
Azure MySQL(单一服务器) X
Azure SQL Server X

发布时序快照

这会发布该特征表中每个主键的最新特征值。 联机存储支持主键查找,但不支持时间点查找。

对于不支持生存时间的联机存储,Databricks 特征存储仅支持快照发布模式。 对于支持生存时间的联机存储,除非创建时在 OnlineStoreSpec 中指定了生存时间 (ttl),否则默认发布模式为快照。

发布时序时段

这会将特征表中每个主键的所有特征值发布到联机存储,并自动删除已过期的记录。 如果记录的时间戳(UTC 时间)超过以前的指定生存时间,则会将该记录视为已过期。 有关生存时间的详细信息,请参阅特定于云的文档。

联机存储支持主键查找,并自动检索具有最新时间戳的特征值。

若要使用此发布模式,必须在创建联机存储时在 OnlineStoreSpec 中提供生存时间 (ttl) 的值。 ttl 一经设置便无法更改。 所有后续发布调用将继承 ttl,且无需在 OnlineStoreSpec 中显式定义此参数。

笔记本示例:时序特征表

以下笔记本演示了对工作区特征存储中的时序特征表的时间点查找。

时序特征表示例笔记本

获取笔记本