数据引入是用于将数据从一个或多个源加载到Azure Data Explorer表中的过程。 引入后,数据即可用于查询。 本文介绍如何将数据从 Amazon S3 获取到新的表或现有表中。
有关 Amazon S3 的详细信息,请参阅什么是 Amazon S3?。
有关数据引入的一般信息,请参阅 Azure Data Explorer 数据引入概述。
先决条件
- Microsoft 帐户或 Microsoft Entra 用户标识。 不需要Azure订阅。
- 登录到 Azure Data Explorer Web UI。
- Azure Data Explorer群集和数据库。 创建群集和数据库。
获取数据
Source
在“获取数据”窗口中,“源”选项卡处于选中状态。
从可用列表中选择数据源。 在此示例中,将从 Amazon S3 导入数据。
配置
选择目标数据库和表。 如果要将数据引入新表,请选择“+ 新建表”并输入表名称。
注意事项
表名称最多可包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。
在 URI 字段中,粘贴单个存储桶的连接字符串或单个对象的连接字符串,格式如下。
桶:
https://BucketName.s3.RegionName.amazonaws.com对象:ObjectName
;AwsCredentials=AwsAccessID,AwsSecretKey(可选)可以应用 Bucket 筛选器,以便根据特定的文件扩展名筛选数据。
注意事项
引入支持的最大文件大小为 6 GB。 建议引入 100 MB 到 1 GB 的文件。
选择下一步。
检查
打开检查选项卡时,您将看到数据的预览。
要完成引入过程,请选择“完成”。
可选:
- 选择“命令查看器”以查看和复制基于输入生成的自动命令。
- 使用“架构定义文件”下拉列表更改从中推断架构的文件。
- 通过从下拉列表中选择所需格式来更改自动推断的数据格式。 请参阅 Azure Data Explorer 支持的用于数据引入的数据格式。
- 编辑列。
- 浏览基于数据类型的高级选项。
编辑列
注意事项
- 对于表格格式(CSV、TSV、PSV),无法将列映射两次。 若要映射到现有列,请先删除新列。
- 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。
以下参数决定了你可在表中进行的更改:
- 表类型为“新”或“现有”
- 映射类型为新建或现有
| 表类型 | 映射类型 | 可进行的调整 |
|---|---|---|
| 新建表 | 新映射 | 重命名列、更改数据类型、更改数据源、映射转换、添加列、删除列 |
| 现有表 | 新映射 | 新建列(随后可在其上更改数据类型、进行重命名和更新) |
| 现有表 | 现有映射 | 无 |
映射转换
某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在“编辑列”窗口中创建或更新列。
可对具有 string 或 datetime 类型且源的数据类型为 int 或 long 的列执行映射转换。 支持的映射转换包括:
- Unix秒数转换为日期时间
- 从Unix毫秒获取日期时间
- DateTimeFromUnixMicroseconds
- DateTimeFromUnixNanoseconds(从Unix纳秒转换的日期时间)
基于数据类型的高级选项
表格(CSV、TSV、PSV):
如果要在现有表中引入表格格式,可以选择表映射下拉列表,然后选择使用现有映射。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,表架构保持不变。
否则,请创建新的映射。
若要将第一行用作列名,请选择 “第一行”标题。
JSON:
- 若要确定 JSON 数据的列除法,请选择“ 嵌套级别”,从 1 到 100。
总结
如果数据引入成功完成,则“数据准备”窗口中的所有三个步骤都会带有绿色的对勾标记。 可以查看每个步骤所使用的命令,或选择一张卡片进行查询、可视化或删除已导入的数据。