外部表是引用存储在 Azure 数据资源管理器数据库外部的数据的架构实体。 在 Azure 数据资源管理器 Web UI 中,可以通过提取存储容器中的示例文件并基于这些示例创建架构来创建外部表。 然后,可以在外部表中分析和查询数据,而无需将数据引入 Azure 数据资源管理器。 有关简要概述,请参阅外部表。 有关创建外部表的不同方法的信息,请参阅创建和更改 Azure 存储外部表。 本文介绍如何使用创建向导体验创建外部表。
先决条件
- Azure 订阅。 创建 Azure 帐户。
- Azure 数据探索器群集和数据库。 创建群集和数据库。
- 登录到 Azure 数据资源管理器 Web UI 并添加与群集的连接。
创建外部表
随即将打开“创建外部表”窗口,其中已选中“目标”选项卡 。
“目标”选项卡
- 系统会预填充“群集”和“数据库”字段。 可以从下拉菜单中选择其他目标。
- 在“表名称”中,输入表的名称。
提示
表名最多可包含 1,024 个字符,包括字母数字、连字符和下划线。 不支持特殊字符。
- 选择“下一步: 源”。
“源”选项卡
在“链接到容器”中,可以通过两种方式添加容器:使用“选择容器”按钮添加容器,并使用“添加 URL”或“添加容器”按钮添加容器。
最多可以添加 10 个源容器。
使用“选择容器”按钮添加容器
选择选择容器。
选择容器使用的订阅和存储帐户。
选择 并添加。 验证完成后,容器链接右侧会显示绿色对勾标志。
使用“添加 URL”或“添加容器”按钮添加容器
选择“添加 URL”或“添加容器”按钮 。
将存储连接字符串输入到具有读取和列出权限的源容器。 验证完成后,容器链接右侧会显示绿色对勾标志。
文件筛选器
使用“文件筛选器”筛选表应包含的文件。 可以按文件夹路径、文件开头或文件扩展名筛选文件。
模式定义文件
第一个源容器显示 文件筛选器下方的文件。
- 通过选中文件左侧的圆圈来选择架构定义文件。 此文件用于生成表架构。
- 选择下一步: schema。 此时会打开“架构”选项卡。
架构选项卡
在选项卡右侧,可以预览数据。 在左侧,可以将 分区 添加到表定义,以便更快地访问源数据,并实现更好的性能。
注意事项
映射不是外部表定义的一部分,向导不支持它们。 可以 根据需要稍后配置映射 。 某些功能(例如,删除 CSV 文件中的最后一列或更改 JSON 文件中的列名)需要映射才能正常工作。
选择“添加分区”。
分区窗口打开。 分区在文件的子路径上定义,可以使用 “路径前缀” 字段进行更改。 对于要应用的每个分区,请填写字段,如下所示:
字段 说明 必需/可选 分区名称 用于标识分区。 名称可以是任意值。 必需 类型 数据分区列的数据类型。 必需 数据列 用于分区的列。 虚拟列依据 URL 路径进行分区。 必需 函数 应用到用于分区的数据列的函数。 可选 函数参数 要在分区函数中使用的参数。 如果使用函数,则是必需的。 路径前缀 用于定义分区的文件子路径。 此前缀将更改外部表的 URL(如“URI 预览”框中所示),并且应与架构定义文件 URI 匹配。 可选 日期/时间模式 用于构造表 URI 路径的日期格式。 可选 例如,分区名称 CustomerName 建议用作分区依据的值位于 URL 的客户名称部分中。 前面的示例声明了两个分区:一个是以客户姓名为基础的分区,另一个是以嵌入在 URL 中的日期为基础的分区。
注意事项
虚拟列作为架构的一部分显示为从文件路径中提取的列数据,稍后可以在查询中使用此数据。
选择“添加分区”以添加另一分区。
选择“保存”。 添加的分区现在会显示在左侧窗格中的“分区”列表内。 不能在预览版中更改分区列。
选择“下一步: 创建表”。 创建表时,将打开“外部表已成功创建”窗口。
若要查看用于创建表的命令,请选择“查看命令”。
若要撤消外部表创建操作,请选择工具>撤消。
查询外部表
生成的表包含符合所定义条件的所有文件中的数据。 可以使用函数 external_table() 查询此表。 有关如何查询外部表的详细信息,请参阅查询外部表。