从 Amazon S3 获取数据

数据引入是用于将数据从一个或多个源加载到Azure Data Explorer表中的过程。 引入后,数据即可用于查询。 本文介绍如何将数据从 Amazon S3 获取到新的表或现有表中。

有关 Amazon S3 的详细信息,请参阅什么是 Amazon S3?

有关数据引入的一般信息,请参阅 Azure Data Explorer 数据引入概述

先决条件

获取数据

  1. 从左侧菜单中选择“查询”。

  2. 右键单击要在其中引入数据的数据库,然后选择“获取数据”。

    “查询”选项卡的屏幕截图,在其中右键单击数据库即可打开“获取选项”对话框。

Source

在“获取数据”窗口中,“源”选项卡处于选中状态

从可用列表中选择数据源。 在此示例中,将从 Amazon S3 导入数据

屏幕截图,其中显示了选取了“源”选项卡的“获取数据”窗口。

配置

  1. 选择目标数据库和表。 如果要将数据引入新表,请选择“+ 新建表”并输入表名称

    注意事项

    表名称最多可包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。

  2. URI 字段中,粘贴单个存储桶的连接字符串或单个对象的连接字符串,格式如下。

    桶:https://BucketName.s3.RegionName.amazonaws.com

    对象:ObjectName;AwsCredentials=AwsAccessID,AwsSecretKey

    (可选)可以应用 Bucket 筛选器,以便根据特定的文件扩展名筛选数据。

    配置选项卡的截图,其中输入了新表,并粘贴了Amazon S3连接字符串。

    注意事项

    引入支持的最大文件大小为 6 GB。 建议引入 100 MB 到 1 GB 的文件。

  3. 选择下一步

检查

打开检查选项卡时,您将看到数据的预览。

要完成引入过程,请选择“完成”

屏幕截图,其中显示了“检查”选项卡。

可选:

编辑列

注意事项

  • 对于表格格式(CSV、TSV、PSV),无法将列映射两次。 若要映射到现有列,请先删除新列。
  • 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。

以下参数决定了你可在表中进行的更改:

  • 表类型为“新”或“现有”
  • 映射类型为新建或现有
表类型 映射类型 可进行的调整
新建表 新映射 重命名列、更改数据类型、更改数据源、映射转换、添加列、删除列
现有表 新映射 新建列(随后可在其上更改数据类型、进行重命名和更新)
现有表 现有映射

显示可编辑列的屏幕截图。

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在“编辑列”窗口中创建或更新列

可对具有 string 或 datetime 类型且源的数据类型为 int 或 long 的列执行映射转换。 支持的映射转换包括:

  • Unix秒数转换为日期时间
  • 从Unix毫秒获取日期时间
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds(从Unix纳秒转换的日期时间)

基于数据类型的高级选项

表格(CSV、TSV、PSV)

  • 如果要在现有表中引入表格格式,可以选择表映射下拉列表,然后选择使用现有映射。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,表架构保持不变。

  • 否则,请创建新的映射。

  • 若要将第一行用作列名,请选择 “第一行”标题

    映射选项的屏幕截图。

JSON

  • 若要确定 JSON 数据的列除法,请选择“ 嵌套级别”,从 1 到 100。

总结

如果数据引入成功完成,则“数据准备”窗口中的所有三个步骤都会带有绿色的对勾标记。 可以查看每个步骤所使用的命令,或选择一张卡片进行查询、可视化或删除已导入的数据。

屏幕截图,其中显示了已成功完成数据引入的摘要页面。