将数据导入到 Azure 机器学习设计器Import data into Azure Machine Learning designer

在本文中,你将了解如何在设计器中导入自己的数据,以创建自定义解决方案。In this article, you learn how to import your own data in the designer to create custom solutions. 可以通过两种方式将数据导入到设计器中:There are two ways you can import data into the designer:

  • Azure 机器学习数据集 - 在 Azure 机器学习中注册 数据集,以启用可帮助你管理数据的高级功能。Azure Machine Learning datasets - Register datasets in Azure Machine Learning to enable advanced features that help you manage your data.
  • 导入数据模块 - 使用 导入数据模块直接访问联机数据源中的数据。Import Data module - Use the Import Data module to directly access data from online datasources.

重要

如果看不到本文档中提到的图形元素(例如工作室或设计器中的按钮),则你可能没有适当级别的工作区权限。If you do not see graphical elements mentioned in this document, such as buttons in studio or designer, you may not have the right level of permissions to the workspace. 请与 Azure 订阅管理员联系,验证是否已向你授予正确级别的访问权限。Please contact your Azure subscription administrator to verify that you have been granted the correct level of access. 有关详细信息,请参阅管理用户和角色For more information, see Manage users and roles.

使用 Azure 机器学习数据集Use Azure Machine Learning datasets

建议使用数据集将数据导入到设计器中。We recommend that you use datasets to import data into the designer. 注册数据集时,可以充分利用高级数据功能,例如版本控制和跟踪以及数据监视When you register a dataset, you can take full advantage of advanced data features like versioning and tracking and data monitoring.

注册数据集Register a dataset

使用 SDK 以编程方式注册现有数据集。You can register existing datasets programatically with the SDK.

你还可以将任何设计器模块的输出注册为数据集。You can also register the output for any designer module as a dataset.

  1. 选择输出你要注册的数据的模块。Select the module that outputs the data you want to register.

  2. 在“属性”窗格中,选择“输出 + 日志” > “注册数据集” 。In the properties pane, select Outputs + logs > Register dataset.

    屏幕截图,其中显示了如何导航到“注册数据集”选项

如果模块输出数据为表格格式,则必须选择将输出注册为“文件数据集”或“表格数据集” 。If the module output data is in a tabular format, you must choose to register the output as a file dataset or tabular dataset.

  • 文件数据集将模块的输出文件夹注册为文件数据集。File dataset registers the module's output folder as a file dataset. 输出文件夹包含设计器在内部使用的数据文件和元文件。The output folder contains a data file and meta files that the designer uses internally. 如果要继续在设计器中使用已注册的数据集,请选择此选项。Select this option if you want to continue to use the registered dataset in the designer.

  • 表格数据集仅将模块的输出数据文件注册为表格数据集。Tabular dataset registers only the module's the output data file as a tabular dataset. 自动机器学习或 Python SDK 等其他工具可轻松使用此格式。This format is easily consumed by other tools, for example in Automated Machine Learning or the Python SDK. 如果计划在设计器之外使用已注册的数据集,请选择此选项。Select this option if you plan to use the registered dataset outside of the designer.

使用数据集Use a dataset

可在模块面板中的“数据集”下找到已注册的数据集。Your registered datasets can be found in the module palette, under Datasets. 若要使用某个数据集,请将其拖放到管道画布上。To use a dataset, drag and drop it onto the pipeline canvas. 然后,将该数据集的输出端口连接到画布中的其他模块。Then, connect the output port of the dataset to other modules in the canvas.

如果注册文件数据集,则数据集的输出端口类型为“AnyDirectory”。If you register a file dataset, the output port type of the dataset is AnyDirectory. 如果注册表格数据集,则数据集的输出端口类型为“DataFrameDirectory”。If you register a Tabular dataset, the output port type of the dataset if DataFrameDirectory. 请注意,如果将数据集的输出端口连接到设计器中的其他模块,则需要对齐数据集和模块的端口类型。Note that if you connect the output port of the dataset to other modules in the designer, the port type of datasets and modules need to be aligned.

屏幕截图,其中显示了设计器面板中已保存数据集的位置

备注

设计器支持数据集版本控制The designer supports dataset versioning. 在数据集模块的属性面板中指定数据集版本。Specify the dataset version in the property panel of the dataset module.

限制Limitations

  • 目前只能可视化设计器中的表格数据集。Currently you can only visualize tabular dataset in the designer. 如果在设计器外注册文件数据集,则无法在设计器画布中对其进行可视化。If you register a file dataset outside designer, you cannot visualize it in the designer canvas.
  • 数据集存储在虚拟网络 (VNet) 中。Your dataset is stored in virtual network (VNet). 如果要进行可视化,则需要启用数据存储的工作区托管标识。If you want to visualize, you need to enable workspace managed identity of the datastore.
    1. 转到相关的数据存储,然后单击“更新凭据” 更新凭据
    2. 选择“确定”,启用工作区托管标识。Select Yes to enable workspace managed identity. 启用工作区托管标识

使用“导入数据”模块导入数据Import data using the Import Data module

尽管我们建议使用数据集来导入数据,但也可以使用导入数据模块。While we recommend that you use datasets to import data, you can also use the Import Data module. “导入数据”模块会跳过在 Azure 机器学习中注册数据集,并直接从数据存储 或 HTTP URL 导入数据。The Import Data module skips registering your dataset in Azure Machine Learning and imports data directly from a datastore or HTTP URL.

有关如何使用“导入数据”模块的详细信息,请参阅导入数据引用页For detailed information on how to use the Import Data module, see the Import Data reference page.

受支持的源Supported sources

本部分列出了设计器支持的数据源。This section lists the data sources supported by the designer. 数据通过数据存储或表格数据集进入设计器。Data comes into the designer from either a datastore or from tabular dataset.

数据存储源Datastore sources

有关支持的数据存储源的列表,请参阅访问 Azure 存储服务中的数据For a list of supported datastore sources, see Access data in Azure storage services.

表格数据集源Tabular dataset sources

设计器支持通过以下源创建的表格数据集:The designer supports tabular datasets created from the following sources:

  • 带分隔符的文件Delimited files
  • JSON 文件JSON files
  • Parquet 文件Parquet files
  • SQL 查询SQL queries

数据类型Data types

设计器在内部可以识别以下数据类型:The designer internally recognizes the following data types:

  • StringString
  • IntegerInteger
  • 小数Decimal
  • BooleanBoolean
  • DateDate

设计器使用一个内部数据类型在模块之间传递数据。The designer uses an internal data type to pass data between modules. 可使用转换为数据集模块将数据显式转换为数据表格式。You can explicitly convert your data into data table format using the Convert to Dataset module. 接受非内部格式的任何模块都将在不提示的情况对数据进行转换,然后再将其传递给下一个模块。Any module that accepts formats other than the internal format will convert the data silently before passing it to the next module.

数据约束Data constraints

设计器中的模块受计算目标的大小限制。Modules in the designer are limited by the size of the compute target. 对于较大的数据集,应使用较大的 Azure 机器学习计算资源。For larger datasets, you should use a larger Azure Machine Learning compute resource. 有关 Azure 机器学习计算的详细信息,请参阅什么是 Azure 机器学习中的计算目标?For more information on Azure Machine Learning compute, see What are compute targets in Azure Machine Learning?

访问虚拟网络中的数据Access data in a virtual network

如果工作区位于虚拟网络中,则必须执行其他配置步骤,以便在设计器中实现数据的可视化。If your workspace is in a virtual network, you must perform additional configuration steps to visualize data in the designer. 有关如何在虚拟网络中使用数据存储和数据集的详细信息,请参阅在 Azure 虚拟网络中使用 Azure 机器学习工作室For more information on how to use datastores and datasets in a virtual network, see Use Azure Machine Learning studio in an Azure virtual network.

后续步骤Next steps

请通过教程:使用设计器预测汽车价格了解设计器的基础知识。Learn the designer fundamentals with this Tutorial: Predict automobile price with the designer.