从文件获取数据

数据引入是将数据从一个或多个源加载到 Azure 数据资源管理器中的表的过程。 导入后,数据可供查询。 本文介绍如何将数据从本地文件获取到新的表或现有表。

有关数据引入的一般信息,请参阅 Azure 数据资源管理器数据引入概述

先决条件

获取数据

  1. 在左侧导航窗格中,选择 “查询”。

  2. 右键单击要在其中引入数据的数据库。 选择“获取数据”。

    “查询”选项卡的屏幕截图,在其中右键单击数据库即可打开“获取选项”对话框。

选择数据源

在“获取数据”窗口中,“源”选项卡处于选中状态

从可用列表中选择数据源。 此示例将从本地文件导入数据。

屏幕截图,其中显示了选取了“源”选项卡的“获取数据”窗口。

注意事项

引入支持的最大文件大小为 6 GB。 建议引入 100 MB 到 1 GB 的文件。

配置数据摄取

  1. 选择目标数据库和表。 若要将数据引入新表,请选择“ + 新建”表 并输入表名称。

    注意事项

    表名最多可包含 1,024 个字符,包括空格、字母数字字符、连字符和下划线。 不支持特殊字符。

  2. 将文件拖到窗口中,或选择“ 浏览文件”。

    注意事项

    最多可以添加 1,000 个文件。 每个文件最多可以解压缩 1 GB。

    屏幕截图,其中显示了已输入新表并选择了一个示例数据文件的“配置”选项卡。

  3. 选择“下一步”。

检查

当“检查”选项卡打开时,将显示数据的预览

要完成引入过程,请选择“完成”

屏幕截图,其中显示了“检查”选项卡。

可选:

编辑列

注意事项

  • 对于表格格式(CSV、TSV、PSV),无法将列映射两次。 若要映射到现有列,请先删除新列。
  • 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。

以下参数决定了你可在表中进行的更改:

  • 表类型为“新”或“现有”
  • 映射类型为“新”或“现有”
表类型 映射类型 可用调整
新建表 新映射 重命名列、更改数据类型、更改数据源、映射转换、添加列、删除列
现有表 新映射 新建列(随后可在其上更改数据类型、进行重命名和更新)
现有表 现有映射

显示可编辑列的屏幕截图。

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在“编辑列”窗口中创建或更新列

可对具有 string 或 datetime 类型且源的数据类型为 int 或 long 的列执行映射转换。 支持的映射转换包括:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

基于数据类型的高级选项

表格(CSV、TSV、PSV)

  • 如果要在现有表中引入表格格式,可以选择表映射下拉列表,然后选择使用现有映射。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,表架构保持不变。

  • 否则,请创建新的映射。

  • 若要将第一行用作列名,请选择 “第一行”标题

    映射选项的屏幕截图。

JSON

  • 若要确定 JSON 数据的列除法,请选择“ 嵌套级别”,从 1 到 100。

总结

“数据准备 ”窗口中,当数据引入成功完成时,所有三个步骤都显示绿色复选标记。 您可以查看每个步骤使用的命令,或者选择一个卡片来查询、可视化或清除已引入的数据。

屏幕截图,其中显示了已成功完成数据引入的摘要页面。