使用 Unity Catalog 训练和注册机器学习模型

Unity Catalog 允许你对表和模型应用细粒度安全性,同时与 Azure Databrics 中的其他机器学习组件无缝交互。 本文介绍如何使用 Python 基于 Unity Catalog 中的数据训练机器学习模型,并在 Unity Catalog 中注册该模型。

要求

  • 必须为 Unity Catalog 启用你的工作区。
  • 你必须能够创建群集或访问在单用户访问模式下运行的群集。

创建 Databricks 机器学习群集

请按照以下步骤创建一个单用户 Databricks Runtime ML 群集,该群集可以访问 Unity Catalog 中的数据。

  1. 单击 compute icon“计算”。

  2. 单击“创建计算”。

  3. 在“访问模式”下,选择“单用户”。

    Databricks Runtime ML 包括需要使用单用户群集的库。 单用户群集可以由单个用户(默认情况下,此单个用户是群集的所有者)专门使用。 其他用户无法附加到群集。

    有关每种访问模式中可用功能的详细信息,请参阅访问模式

  4. 在“Databricks 运行时版本”下拉菜单中,选择“ML”,然后选择“11.3 LTS ML”或更高版本。

  5. 单击“创建群集”。

创建目录

请按照以下步骤创建一个新目录,机器学习团队可以在其中存储其数据资产。

  1. 在分配了元存储的工作区中,以元存储管理员身份登录,或以具有 CREATE CATALOG 特权的用户身份登录。

  2. 创建笔记本或打开 Databricks SQL 编辑器。

  3. 运行以下命令以创建 ml 目录:

    CREATE CATALOG ml;
    

    创建目录时,将在该目录中自动创建一个名 default 为的架构。

  4. ml_team 组授予对 ml 目录和 ml.default 架构的访问权限,以及创建表和视图的能力。 若要包括所有帐户级别的用户,可以使用组 account users

    GRANT USE CATALOG ON CATALOG ml TO `ml team`;
    GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
    

现在,ml_team 组中的任何用户都可以运行以下示例笔记本。

导入示例笔记本

要开始,请导入以下笔记本。

“采用 Unity Catalog 的机器学习”笔记本

获取笔记本

要导入笔记本:

  1. 在笔记本旁边,单击“复制导入的链接”。
  2. 在你的工作区中,单击 Workspace Icon“工作区”。
  3. 在文件夹旁边,单击 Down Caret,然后单击“导入”
  4. 单击 URL,然后粘贴你复制的链接。
  5. 导入的笔记本将显示在你选择的文件夹中。 双击笔记本名称以将其打开。
  6. 在笔记本的顶部,选择 Databricks 机器学习群集,将笔记本附加到此群集。

笔记本分为几个高级部分:

  1. 安装程序。
  2. 从 CSV 文件中读取数据并将其写入 Unity Catalog。
  3. 将数据加载到 Pandas 数据帧中并进行清理。
  4. 训练一个基本的分类模型。
  5. 调整超参数,优化模型。
  6. 在 Unity Catalog 中注册模型。
  7. 将结果写入新表并与其他用户共享。

要运行单元,请单击 Run Icon“运行”。 若要运行整个笔记本,请单击“全部运行”。