Compartir a través de

将数据导入到 Azure 机器学习设计器

重要

本文提供有关使用 Azure 机器学习 SDK v1 的信息。 自 2025 年 3 月 31 日起,SDK v1 已弃用,其支持将于 2026 年 6 月 30 日结束。 可以在该日期之前安装和使用 SDK v1。

建议在 2026 年 6 月 30 日之前过渡到 SDK v2。 有关 SDK v2 的详细信息,请参阅 什么是 Azure 机器学习 Python SDK v2SDK v2 参考

本文介绍如何将自己的数据导入 Azure 机器学习设计器以创建自定义解决方案。 可以通过两种方式将数据导入到设计器中:

  • Azure 机器学习数据集:在 Azure 机器学习中注册 数据集 ,以启用有助于管理数据的高级功能。
  • 导入数据组件:使用 导入数据 组件直接从联机数据源访问数据。

重要

如果看不到本文档中提到的图形元素(例如工作室或设计器中的按钮),则你可能没有适当级别的工作区权限。 请与 Azure 订阅管理员联系,确认是否已向你授予正确级别的访问权限。 有关详细信息,请参阅管理用户和角色

使用 Azure 机器学习数据集

建议使用数据集将数据导入到设计器中。 注册数据集时,可以充分利用高级数据功能,例如版本控制和跟踪以及数据监视

注册数据集

可以使用 SDK 以编程方式 注册现有数据集,也可以在 Azure 机器学习工作室中直观注册。

还可以将任何设计器组件的输出注册为数据集。

  1. 选择输出要注册的数据的组件。

  2. 在“属性”窗格中,选择“ 输出 + 记录>数据输出>注册数据”。

    显示如何导航到“注册数据集”选项的屏幕截图。

如果组件输出数据采用表格格式,则必须选择将输出注册为“文件数据集”或“表格数据集”。

  • 文件数据集将组件的输出文件夹注册为文件数据集。 输出文件夹包含设计器在内部使用的数据文件和元文件。 如果要继续在设计器中使用已注册的数据集,请选择此选项。

  • 表格数据集仅将组件的输出数据文件注册为表格数据集。 自动机器学习或 Python SDK 等其他工具可轻松使用此格式。 如果计划在设计器之外使用已注册的数据集,请选择此选项。

使用数据集

可以在“ 数据”下的组件面板中找到已注册的数据集。 若要使用某个数据集,请将其拖放到管道画布上。 然后,将该数据集的输出端口连接到画布中的其他组件。

如果注册文件数据集,则数据集的输出端口类型为“AnyDirectory”。 如果注册表格数据集,则数据集的输出端口类型为“DataFrameDirectory”。 请注意,如果将数据集的输出端口连接到设计器中的其他组件,则需要对齐数据集和组件的端口类型。

屏幕截图,其中显示了设计器面板中已保存数据集的位置

注释

设计器支持数据集版本控制。 在数据集组件的属性面板中指定数据集版本。

局限性

  • 目前,只能在设计器中可视化表格数据集。 如果在设计器外部注册文件数据集,则无法在设计器画布中将其可视化。
  • 目前,设计器仅支持存储在 Azure Blob 存储中的预览输出。 可以在组件右侧面板的“参数”选项卡下的“输出设置”中检查和更改输出数据存储 。
  • 如果数据存储在虚拟网络中并且要预览,则需要启用数据存储的工作区托管标识。
    1. 转到相关的数据存储,然后选择“ 更新身份验证”。 显示如何更新凭据的屏幕截图。
    2. 选择切换开关以使用工作区托管标识。 显示如何启用工作区托管标识的屏幕截图。

使用“导入数据”组件导入数据

尽管我们建议使用数据集导入数据,但你也可以使用导入数据组件。 导入数据组件跳过在 Azure 机器学习中注册数据集,并直接从数据存储或 HTTP URL 导入数据。

有关如何使用“导入数据”组件的详细信息,请参阅导入数据参考页

注释

如果数据集的列过多,可能会遇到以下错误:“由于大小限制,验证失败”。 若要避免这种情况,请在数据集接口中注册数据集

支持的源

本部分列出了设计器支持的数据源。 数据是从数据存储或表格数据集进入设计器的。

数据存储源

有关支持的数据存储源的列表,请参阅访问 Azure 存储服务中的数据

表格数据集源

设计器支持通过以下源创建的表格数据集:

  • 带分隔符的文件
  • JSON 文件
  • Parquet 文件
  • SQL 查询

数据类型

设计器在内部可以识别以下数据类型:

  • 字符串
  • 整数
  • 十进制
  • 布尔
  • 日期

设计器使用内部数据类型在组件之间传递数据。 可使用转换为数据集组件将数据显式转换为数据表格式。 任何接受除内部格式以外的其他格式的组件都会在不提示的情况转换数据,然后再将其传递到下一个组件。

数据约束

设计器中的模块受计算目标的大小限制。 对于较大的数据集,应使用较大的 Azure 机器学习计算资源。 有关 Azure 机器学习计算的详细信息,请参阅什么是 Azure 机器学习中的计算目标?

访问虚拟网络中的数据

如果工作区位于虚拟网络中,则必须执行其他配置步骤,以便在设计器中实现数据的可视化。 有关如何在虚拟网络中使用数据存储和数据集的详细信息,请参阅在 Azure 虚拟网络中使用 Azure 机器学习工作室

后续步骤