从Azure storage获取数据

数据引入是用于将数据从一个或多个源加载到Azure Data Explorer表中的过程。 引入后,数据即可用于查询。 本文介绍如何将数据从 Azure storage(ADLS Gen2 容器、blob 容器或单个 Blob)获取到新的或现有表中。

有关数据引入的一般信息,请参阅 Azure Data Explorer 数据引入概述

警告

获取数据向导不支持通过 专用终结点托管专用终结点从 Azure Storage 引入数据。 按照说明使用 .ingest 命令获取数据。

先决条件

获取数据

  1. 从左侧菜单中选择“查询”。

  2. 右键单击要在其中引入数据的数据库。 选择“获取数据”。

    查询选项卡的截图,其中包含数据库的右键菜单和打开的“获取选项”对话框。

Source

在“获取数据”窗口中,“源”选项卡处于选中状态

从可用列表中选择数据源。 在此示例中,你将从 Azure 存储 导入数据。

 get 数据窗口的Screenshot,其中选择了源选项卡

配置

  1. 选择目标数据库和表。 如果要将数据引入新表,请选择“+ 新建表”并输入表名称

    注意事项

    表名称最多可包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。

  2. 要添加源,请选择“选择容器”或“添加 URI”。

  3. 如果选择了“选择容器”,请填写以下字段

    配置选项卡的截图,其中输入了新表,并选择了一个示例数据文件。

    设置 字段说明
    订阅 存储帐户所在的订阅 ID。
    存储帐户 标识存储帐户的名称。
    容器 要引入的存储容器。
    文件筛选器(可选)
    文件夹路径 筛选数据以引入具有特定文件夹路径的文件。
    文件扩展名 筛选数据以仅引入具有特定文件扩展名的文件。
  4. 如果选择 添加 URI

    1. 从storage帐户中,为要引入的容器或单个 Blob 生成 SAS URL。 设置容器的“读取”和“列出”权限或单个 blob 的“读取”权限。 有关详细信息,请参阅 生成 SAS 令牌

    2. 将 URL 粘贴到 URI 字段中,然后选择加号(+)。 可以为单个 Blob 添加多个 URI,也可以为容器添加单个 URI。

    配置选项卡的截图,其中 connection string 粘贴在 URI 字段中。

    注意事项

    • 最多可以添加 10 个单独的 Blob。 每个 Blob 的未压缩大小上限 1 GB。
    • 最多可以从单个容器引入 5,000 个 blob。
    • 不能在同一引入中引入单个 Blob 和容器。
  5. 选择下一个

检查

“检查”选项卡将打开,并显示数据预览

要完成引入过程,请选择“完成”

检查选项卡的截图。

可选:

编辑列

注意事项

  • 对于表格格式(CSV、TSV、PSV),无法将列映射两次。 若要映射到现有列,请先删除新列。
  • 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。

以下参数决定了你可在表中进行的更改:

  • 表类型为“新”或“现有”
  • 映射类型为新建或现有
表类型 映射类型 可进行的调整
新建表 新映射 重命名列、更改数据类型、更改数据源、映射转换、添加列、删除列
现有表 新映射 新建列(随后可在其上更改数据类型、进行重命名和更新)
现有表 现有映射

打开用于编辑的列的截图。

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在“编辑列”窗口中创建或更新列

可对具有 string 或 datetime 类型且源的数据类型为 int 或 long 的列执行映射转换。 支持的映射转换包括:

  • 从Unix秒转日期时间
  • DateTimeFromUnixMilliseconds(从Unix毫秒获取日期时间)
  • DateTimeFromUnixMicroseconds(从Unix微秒获取日期时间)
  • DateTimeFromUnixNanoseconds

基于数据类型的高级选项

表格(CSV、TSV、PSV)

  • 如果要在现有表中引入表格格式,可以选择表映射下拉列表,然后选择使用现有映射。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,表架构保持不变。

  • 否则,请创建新的映射。

  • 若要将第一行用作列名,请选择 “第一行”标题

    映射选项的屏幕截图。

JSON

  • 若要确定 JSON 数据的列除法,请选择“ 嵌套级别”,从 1 到 100。

总结

“摘要” 窗口中,当数据引入成功完成时,所有三个步骤都标有绿色复选标记。 可以查看每个步骤所使用的命令,或选择一张卡片进行查询、可视化或删除已导入的数据。

成功引入已完成的摘要页的截图