从 Amazon S3 获取数据

数据引入是将数据从一个或多个源加载到 Azure 数据资源管理器中的表的过程。引入后，数据可用于查询。本文介绍如何将数据从 Amazon S3 获取到新的表或现有表中。

有关 Amazon S3 的详细信息，请参阅什么是 Amazon S3？

有关数据引入的一般信息，请参阅 Azure 数据资源管理器数据引入概述。

先决条件

在“获取数据”窗口中，“源”选项卡处于选中状态。

从可用列表中选择数据源。在此示例中，从 Amazon S3 引入数据。

选择目标数据库和表。若要将数据引入新表，请选择“ + 新建”表 并输入表名称。

注意事项

表名最多可包含 1,024 个字符，包括空格、字母数字字符、连字符和下划线。不支持特殊字符。
在 URI 字段中，粘贴单个存储桶或单个对象的连接字符串，格式如下。

桶：https://BucketName.s3.RegionName.amazonaws.com

对象：ObjectName;AwsCredentials=AwsAccessID,AwsSecretKey

（可选）可以应用 Bucket 筛选器，以便根据特定的文件扩展名筛选数据。

注意事项

引入支持的最大文件大小为 6 GB。建议引入 100 MB 到 1 GB 的文件。
选择下一步。

打开检查选项卡时，您将看到数据的预览。

要完成引入过程，请选择“完成”。

可选：

注意事项

以下参数决定了你可在表中进行的更改：

表类型	映射类型	可进行的调整
新建表	新映射	重命名列、更改数据类型、更改数据源、映射转换、添加列、删除列
现有表	新映射	新建列（随后可在其上更改数据类型、进行重命名和更新）
现有表	现有映射	无

某些数据格式映射（Parquet、JSON 和 Avro）支持简单的引入时间转换。若要应用映射转换，请在“编辑列”窗口中创建或更新列。

可对具有 string 或 datetime 类型且源的数据类型为 int 或 long 的列执行映射转换。支持的映射转换包括：

表格（CSV、TSV、PSV）：

如果要在现有表中引入表格格式，可以选择表映射下拉列表，然后选择使用现有映射。表格数据不一定要包括用于将源数据映射到现有列的列名称。选中此选项后，映射将按顺序完成，表架构保持不变。
否则，请创建新的映射。
若要将第一行用作列名，请选择 “第一行”标题。

JSON：

在 “数据准备 ”窗口中，当数据引入成功完成时，所有三个步骤都显示绿色复选标记。可以查看每个步骤使用的命令，或者选择一张卡片来查询、可视化或删除已导入的数据。