“导入数据”组件

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可以将数据从现有的云数据服务加载到机器学习管道。

注意

此组件提供的所有功能都可以通过工作区登陆页中的“数据存储”和“数据集”来完成。建议使用数据存储和数据集，因为它们包括数据监视等附加功能。有关详细信息，请参阅文章如何访问数据和如何注册数据集。注册数据集后，可以在设计器界面中的“数据集”->“我的数据集”类别中找到它。此组件针对工作室（经典版）用户而保留，以便其获得熟悉的体验。

“导入数据”组件支持从以下源读取数据：

通过 HTTP 从 URL 读取
通过数据存储进行 Azure 云存储
- Azure Blob 容器
- Azure 文件共享
- Azure Data Lake Gen2
- Azure SQL 数据库
- Azure PostgreSQL

在使用云存储之前，必须先在 Azure 机器学习工作区中注册一个数据存储。有关详细信息，请参阅如何访问数据。

定义所需的数据并连接到源后， 导入数据 将根据每个列包含的值推断该列的数据类型，并将数据载入设计器管道。 “导入数据”的输出是可在任何设计器管道中使用的数据集。

如果源数据发生更改，可以通过重新运行导入数据来刷新数据集并添加新数据。

警告

如果工作区位于虚拟网络中，则必须将数据存储配置为使用设计器的数据可视化功能。有关如何在虚拟网络中使用数据存储和数据集的详细信息，请参阅在 Azure 虚拟网络中使用 Azure 机器学习工作室。

如何配置“导入数据”

将“导入数据”组件添加到管道。可以在设计器的“数据输入和输出”类别中找到此组件。
选择此组件以打开右侧面板。
选择“数据源”，然后选择数据源类型。该类型可以是 HTTP 或数据存储。

如果选择数据存储，则可以选择已注册到 Azure 机器学习工作区的现有数据存储，或创建新的数据存储。然后，定义数据在数据存储中的导入路径。可以通过选择“浏览路径”来轻松浏览路径。
注意

“导入数据”组件仅适用于表格数据。如果希望一次导入多个表格数据文件，则需要满足以下条件，否则会发生错误：
1. 若要包含文件夹中的所有数据文件，需要为“路径”输入 folder_name/**。
2. 所有数据文件都必须以 unicode-8 编码。
3. 所有数据文件都必须具有相同的列数和列名。
4. 导入多个数据文件的结果是按顺序串联多个文件中的所有行。
选择“预览架构”以筛选要包含的列。还可以在“分析”选项中定义高级设置，例如“分隔符”。
“重新生成输出”复选框决定是否在运行时执行组件以重新生成输出。

它默认处于未选中状态，这意味着，如果先前已使用相同的参数执行了该组件，系统会重复使用上次运行的输出以缩短运行时间。

如果选择它，系统会再次执行组件以重新生成输出。因此，更新存储中的基础数据时，选择此选项可以帮助获取最新数据。
提交管道。

当“导入数据”将数据载入设计器时，它会根据每个列包含的值推断该列的数据类型：数字或分类。

如果标题存在，则使用该标题来命名输出数据集的列。

如果数据中没有现有的列标题，将使用以下格式生成新的列名称：col1, col2,…。 , coln*。

结果

导入完成后，请右键单击输出数据集，然后选择“可视化”以查看是否已成功导入数据。

如果要保存数据以供重用，而不想在每次运行管道时导入新的数据集，请在组件右侧面板的“输出 + 日志”选项卡下选择“注册数据集”图标。选择数据集的名称。保存的数据集将保留单击保存时存在的数据。重新运行管道时不会更新数据集，即使管道中的数据集发生更改，也是如此。这有助于创建数据快照。

导入数据后，可能需要对它进行一些额外的准备，才能将它用于建模和分析：

使用编辑元数据更改列名、将列处理为不同的数据类型，或指示某些列是标签或特征。
使用选择数据集中的列选择要转换的或要在建模中使用的列子集。通过使用添加列组件，可以轻松地将转换或删除的列重新加入原始数据集。
使用分区和采样来分割数据集、执行采样或获取排名靠前的 n 行。

限制

由于存在数据存储访问限制，如果推理管道包含“导入数据”组件，它将在部署到实时终结点时被自动删除。

后续步骤

请参阅 Azure 机器学习可用的组件集。

Last updated on 2024-08-29

通过

“导入数据”组件

如何配置“导入数据”

结果

限制

后续步骤

其他资源