Azure 机器学习中的关键数据概念

项目
10/30/2023

借助 Azure 机器学习，可以从本地计算机或现有的基于云的存储资源中导入数据。本文介绍重要的 Azure 机器学习数据概念。

数据存储

Azure 机器学习数据存储用作对现有 Azure 存储帐户的引用。 Azure 机器学习数据存储具有以下优势：

可使用易用的常见 API 与不同的存储类型（Blob/文件存储/ADLS）进行交互。
在团队运营中更轻松地发现有用的数据存储。
对于基于凭据的访问（服务主体/SAS/密钥），Azure 机器学习数据存储可保护连接信息。这样，就不需要在脚本中放置该信息。

使用现有 Azure 存储帐户创建数据存储时，可以在两种不同的身份验证方法之间进行选择：

基于凭据 - 使用服务主体、共享访问签名 (SAS) 令牌或帐户密钥对数据访问进行身份验证。具有工作区读者访问权限的用户可以访问凭据。
基于标识：使用 Microsoft Entra 标识或托管标识对数据访问进行身份验证。

下表汇总了 Azure 机器学习数据存储可以创建的 Azure 基于云的存储服务。此外，该表还汇总了可以访问这些服务的身份验证类型：

支持的存储服务	基于凭据的身份验证	基于标识的身份验证
Azure Blob 容器	✓	✓
Azure 文件共享	✓
Azure Data Lake Gen1	✓	✓
Azure Data Lake Gen2	✓	✓

有关数据存储的详细信息，请参阅创建数据存储。

数据类型

URI（存储位置）可以引用文件、文件夹或数据表。机器学习作业输入和输出定义需要以下三种数据类型之一：

类型	V2 API	V1 API	规范场景	V2/V1 API 差异
File 引用单个文件	`uri_file`	`FileDataset`	读/写单个文件 - 文件可以采用任何格式。	V2 API 的新类型。在 V1 API 中，文件始终映射到计算目标文件系统上的文件夹，此映射需要 `os.path.join`。在 V2 API 中，映射的是单个文件。这样，就可以在代码中引用该位置。
文件夹引用单个文件夹	`uri_folder`	`FileDataset`	必须将 parquet/CSV 文件的文件夹读取/写入到 Pandas/Spark 中。使用文件夹中的图像、文本、音频、视频文件进行深度学习。	在 V1 API 中，`FileDataset` 有一个关联的引擎，可以从文件夹中获取文件样本。在 V2 API 中，文件夹是到计算目标文件系统的简单映射。
表引用数据表	`mltable`	`TabularDataset`	架构很复杂，可能会频繁更改，或者需要大型表格数据的一部分。使用表的 AutoML。	在 V1 API 中，Azure 机器学习后端存储了数据具体化蓝图。因此，仅当你有 Azure 机器学习工作区时，`TabularDataset` 才起作用。 `mltable` 将数据具体化蓝图存储在你的存储中。此存储位置意味着你可以在不连接 AzureML 的情况下使用它（例如本地和自有设施）。在 V2 API 中，你会发现从本地作业转换到远程作业更容易。有关详细信息，请参阅在 Azure 机器学习中使用表。

URI

统一资源标识符 (URI) 表示本地计算机上的存储位置、Azure 存储或公开可用的 http(s) 位置。这些示例显示了不同存储选项的 URI：

存储位置	URI 示例
Azure 机器学习数据存储	`azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet`
本地计算机	`./home/username/data/my_data`
公共 http(s) 服务器	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Blob 存储	`wasbs://<containername>@<accountname>.blob.core.chinacloudapi.cn/<folder>/`
Azure Data Lake (gen2)	`abfss://<file_system>@<account_name>.dfs.core.chinacloudapi.cn/<folder>/<file>.csv`
Azure Data Lake (gen1)	`adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>`

Azure 机器学习作业将 URI 映射到计算目标文件系统。此映射意味着，在使用或生成 URI 的命令中，该 URI 的工作方式类似于文件或文件夹。 URI 使用基于标识的身份验证通过 Microsoft Entra ID（默认）或托管标识连接到存储服务。 Azure 机器学习数据存储 URI 可以应用基于标识的身份验证或基于凭据（例如服务主体、SAS 令牌、帐户密钥）的身份验证，而不会泄露机密。

URI 可以用作 Azure 机器学习作业的输入或输出，并且可以使用以下四种不同模式选项之一映射到计算目标文件系统：

只读装载 (ro_mount)：URI 表示装载到计算目标文件系统的存储位置。装载的数据位置仅支持只读输出。
读写装载 (rw_mount)：URI 表示装载到计算目标文件系统的存储位置。装载的数据位置支持其中的读取输出和数据写入。
下载 (download)：URI 表示包含下载到计算目标文件系统的数据的存储位置。
上传 (upload)：写入计算目标位置的所有数据都上传到 URI 表示的存储位置。

此外，还可以在“直接”模式下将 URI 作为作业输入字符串传入。下表汇总了可用于输入和输出的模式组合：

作业输入或输出	`upload`	`download`	`ro_mount`	`rw_mount`	`direct`
输入		✓	✓		✓
输出	✓			✓

有关详细信息，请参阅访问作业中的数据。

数据运行时功能

Azure 机器学习使用自己的数据运行时来完成以下三个目的之一：

装载/上传/下载
将存储 URI 映射到计算目标文件系统
使用 Azure 机器学习表 (mltable) 将表格数据具体化为 pandas/spark

Azure 机器学习数据运行时专为高速且高效完成机器学习任务而设计。它提供以下主要优势：

Rust 语言体系结构。 Rust 语言以高速和高内存效率而闻名。
轻型；Azure 机器学习数据运行时不依赖于其他技术（例如 JVM），因此，运行时可在计算目标上快速安装。
多进程（并行）数据加载。
数据预提取在 CPU 上作为后台任务运行，以提高 GPU 在深度学习操作中的利用率。
对云存储的无缝身份验证。

数据资产

Azure 机器学习数据资产与 Web 浏览器书签（收藏夹）类似。可以创建数据资产，然后使用易记名称访问该资产，而无需记住指向最常用数据的冗长存储路径 (URI)。

通过创建数据资产，还可以创建对数据源位置的引用及其元数据的副本。由于数据保留在其现有位置中，因此不会产生额外的存储成本，也不会损害数据源的完整性。可以从 Azure 机器学习数据存储、Azure 存储、公共 URL 或本地文件创建数据资产。

有关数据资产的详细信息，请参阅创建数据资产。

Azure 机器学习中的关键数据概念

数据存储

数据类型

URI

数据运行时功能

数据资产

后续步骤

其他资源