将数据从容器或 ADLS 中引入 Azure 数据资源管理器
借助一键式引入,可将 JSON、CSV 和其他格式的数据快速引入表中并轻松创建映射结构。 数据可以从存储、本地文件或容器引入,可以通过一次性或持续引入过程完成。
本文档介绍如何使用直观的一键式向导将容器中的 CSV 数据引入新表 。 可采用一次性操作方式引入数据,也可以采用连续方式,连续方式即设置事件网格引入管道来响应源容器中的新文件并将符合条件的数据引入表中。 这个过程可稍作调整以适用于各种不同的用例。
有关一键式引入的概述,请参阅一键式引入。 若要了解如何将数据引入 Azure 数据资源管理器中的现有表,请参阅一键式引入到现有表中
先决条件
- Azure 订阅。 创建 Azure 帐户。
- 创建群集和数据库。
- 一个存储帐户。
- 可以在
BlobStorage
、StorageV2
或 Data Lake Storage Gen2 的 Azure 存储帐户上设置事件网格通知订阅。
引入新数据
在 Web UI 的左侧菜单中,右键单击“数据库”并选择“引入新数据”。
在“引入新数据”窗口中,“目标”选项卡处于选中状态 。 系统会自动填充“群集”和“数据库”字段。
若要向群集添加新连接,可选择自动填充的群集名称下面的“添加群集连接”。
在弹出窗口中,输入要连接的群集的“连接 URI”。
输入要用于标识此群集的“显示名称”,然后选择“添加”。
在“表”中,选中“创建新表”并输入新表的名称 。 可以使用字母数字字符、连字符和下划线。 不支持特殊字符。
注意
表名称必须介于 1 到 1024 个字符之间。
选择“下一步: 源”
选择引入类型
在“源类型”下,执行以下步骤:
- 选择“从 blob 容器”(blob 容器、ADLS Gen2 容器)。 可以从单个容器引入多达 5000 个 blob。
- 在“链接到存储”字段中,添加容器的包含 SAS 令牌或帐户密钥的 blob URI,并选择性地输入样本大小。 若要从此容器中的文件夹进行引入,请参阅从容器中的文件夹引入。
提示
如需了解如何“从文件”引入,请参阅使用一键式引入将 JSON 数据从本地文件引入到 Azure 数据资源管理器中的现有表
从容器中的文件夹引入
若要从某个容器内的特定文件夹引入,请生成下列格式的字符串:
container_pathfolder_pathaccess_key_1
你将在选择引入类型中使用此字符串,而不是 SAS URL。
导航到存储帐户,然后选择“存储资源管理器”“选择 Blob 容器”
浏览到所选文件夹,然后选择“复制 URL”。 将该值粘贴到临时文件中,再将
;
添加到此字符串的末尾。在左侧菜单的“设置”下,选择“访问密钥” 。
在密钥 1下,复制密钥字符串 。 将该值粘贴到步骤 2 中字符串的末尾。
存储订阅错误
如果在从存储帐户引入时收到以下错误消息:
在所选订阅下找不到存储。 请在门户中将存储帐户
storage_account_name
订阅添加到你选择的订阅中。
在右上方的菜单栏中选择
图标。 这会打开“目录 + 订阅”窗格。
在“所有订阅”下拉列表中,将你的存储帐户的订阅添加到所选列表中。
筛选数据
如果需要,请筛选数据,仅引入以特定字符开头或结尾的文件。
例如,筛选以 .csv 扩展名开头的所有文件。
系统将随机选择一个文件,并且将根据架构定义文生成架构。 你可选择不同的文件。
编辑架构
选择“下一步: 架构”以查看和编辑表列配置。 服务会通过检查源名称自动确定该源是否已压缩。
在架构 选项卡中:
确认在“数据格式”中选择的格式:
在这种情况下,数据格式为 CSV
提示
如果要使用 JSON 文件,请参阅使用一键式引入将 JSON 数据从本地文件引入到 Azure 数据资源管理器中的现有表。
可以选中“忽略第一条记录”来忽略文件的标题行。
在“映射名称”字段中输入映射名称。 可以使用字母数字字符和下划线。 不支持空格、特殊字符和连字符。
编辑表
引入到新表后,在创建表时可以更改表的各个方面。
以下参数决定了你可在表中进行的更改:
- 表类型为“新”或“现有”
- 映射类型为“新”或“现有”
表类型 | 映射类型 | 可用调整 |
---|---|---|
新建表 | 新映射 | 更改数据类型,重命名列,新建列,删除列,更新列,升序排序,降序排序 |
现有表 | 新映射 | 新建列(你随后可在其上更改数据类型、进行重命名和更新), 更新列,升序排序,降序排序 |
现有映射 | 升序排序,降序排序 |
注意
添加新列或更新列时,可更改映射转换。 有关详细信息,请参阅映射转换
注意
对于表格格式,无法映射列两次。 若要映射到现有列,请先删除新列。
命令编辑器
在“编辑器”窗格上方选择“v”按钮,打开编辑器。 在编辑器中,可以查看和复制基于输入生成的自动命令。
选择“下一步: 摘要”以创建表和映射并开始进行数据引入。
完成数据引入
如果数据引入成功完成,则“数据引入已完成”窗口中的所有三个步骤都会带有绿色的对勾标记。
探索快速查询和工具
在引入进度下方的磁贴中,探索“快速查询”或“工具” :
“快速查询”包含指向 Web UI(其中包含示例查询)的链接。
“工具”包含一个指向 Web UI 上的“撤消”或“删除新数据”的链接,因此,你可以通过运行相关的 命令来排查问题。
注意
使用
.drop
命令时,可能会丢失数据。 请谨慎使用。 Drop 命令只会还原此引入流所做的更改(新建范围和列), 而不会删除任何其他内容。
创建连续引入
通过持续引入,可创建一个事件网格,它会在源容器中侦听新文件。 任何满足预定义参数(前缀、后缀等)条件的新文件都会自动引入到目标表中。
在“连续引入”磁贴中选择“事件网格”,以打开 Azure 门户 。 打开数据连接页时,事件网格数据连接器已打开,并已输入了源参数和目标参数(源容器、表和映射)。
数据连接:基本信息
- “数据连接”边栏选项卡会随即打开,已选中“基本信息”选项卡 。
- 输入“存储帐户”。
- 选择将触发引入的“事件类型”。
- 选择“下一步: 引入属性”
引入属性
预填充了路由设置的“引入属性”选项卡会随即打开。 目标表名称、格式和映射名称取自上面创建的表。
选择“下一步: 查看 + 创建”
查看 + 创建
查看资源,然后选择“创建”。