从 Azure 存储获取数据

数据引入是从一个或多个源将数据加载到 Azure 数据资源管理器中的表的过程。 引入后,数据即可用于查询。 在本文中,你会学习如何将数据从 Azure 存储(ADLS Gen2 容器、Blob 容器或单个 Blob)获取到新的表或现有表。

引入可以作为一次性操作或用连续方法来完成。 只能通过门户配置连续引入。

有关数据引入的一般信息,请参阅 Azure 数据资源管理器数据引入概述

先决条件

获取数据

  1. 从左侧菜单中选择“查询”。

  2. 右键单击要在其中引入数据的数据库。 选择“获取数据”。

    Screenshot of query tab, with right-click on a database and the get options dialog open.

Source

在“获取数据”窗口中,“源”选项卡处于选中状态

从可用列表中选择数据源。 在此示例中,你将从 Azure 存储引入数据。

Screenshot of get data window with source tab selected.

配置

  1. 选择目标数据库和表。 如果要将数据引入新表,请选择“+ 新建表”并输入表名称

    注意

    表名称最多可包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。

  2. 要添加源,请选择“选择容器”或“添加 URI”。

    1. 如果选择了“选择容器”,请填写以下字段

      Screenshot of configure tab with new table entered and one sample data file selected.

      设置 字段说明
      订阅 存储帐户所在的订阅 ID。
      存储帐户 标识存储帐户的名称。
      容器 要引入的存储容器。
      文件筛选器(可选)
      文件夹路径 筛选数据以引入具有特定文件夹路径的文件。
      文件扩展名 筛选数据以仅引入具有特定文件扩展名的文件。
    2. 如果选择了“添加 URI”,请将 Blob 容器或单个文件的存储连接字符串粘贴到“URI”字段中,然后选择“+”。

      注意

      • 最多可以添加 10 个单独的 Blob。 每个 Blob 的未压缩大小上限 1 GB。
      • 可以从单个容器引入多达 5000 个 blob。

      Screenshot of configure tab with the connection string pasted in the URI field.

  3. 选择下一个

检查

此时会打开“检查”选项卡,其中包含数据的预览

要完成引入过程,请选择“完成”

Screenshot of the inspect tab.

可选:

编辑列

注意

  • 对于表格格式(CSV、TSV、PSV),无法将列映射两次。 若要映射到现有列,请先删除新列。
  • 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。

以下参数决定了你可在表中进行的更改:

  • 表类型为“新”或“现有”
  • 映射类型为“新”或“现有”
表类型 映射类型 可用调整
新建表 新映射 重命名列、更改数据类型、更改数据源、映射转换、添加列、删除列
现有表 新映射 新建列(随后可在其上更改数据类型、进行重命名和更新)
现有表 现有映射

Screenshot of columns open for editing.

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在“编辑列”窗口中创建或更新列

可对具有 string 或 datetime 类型且源的数据类型为 int 或 long 的列执行映射转换。 支持的映射转换为:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

基于数据类型的高级选项

表格(CSV、TSV、PSV)

  • 如果要在现有表中引入表格格式,则可以选择“高级”>“保留当前表架构”。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,表架构保持不变。 如果未选中此选项,无论数据结构如何,都为传入的数据创建新列。

  • 要将第一行用作列名,请选择“高级”>“首行是列标题”

    Screenshot of advanced CSV options.

JSON

  • 要确定 JSON 数据的列划分,请选择“高级”>“嵌套级别”,从 1 到 100

  • 如果选择“高级”>“忽略数据格式错误”,则以 JSON 格式引入数据。 如果未选中此复选框,则以 multijson 格式引入数据。

    Screenshot of advanced JSON options.

总结

如果数据引入成功完成,则“数据准备”窗口中的所有三个步骤都会带有绿色的对勾标记。 可以查看用于每个步骤的命令,或选择要查询、可视化或删除引入数据的卡片。

Screenshot of summary page with successful ingestion completed.