教程:在 Synapse Analytics 中使用 SQL 语言查询 Azure Data Lake Storage

本教程介绍如何将 Azure Synapse 无服务器 SQL 池连接到启用了 Azure Data Lake Storage 的 Azure 存储帐户中存储的数据。 通过此连接,可以使用 SQL 语言在 Azure 存储中对数据运行 SQL 查询和分析。

在本教程中,将:

  • 将数据引入到存储帐户
  • 创建 Synapse Analytics 工作区(如果没有)。
  • 对 Blob 存储中的数据运行分析

如果没有 Azure 订阅,可在开始前创建一个试用帐户

先决条件

下载航班数据

本教程使用美国运输统计局的航班数据。 必须下载该数据才能完成本教程。

  1. 下载 On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2016_1.zip 文件。 该文件包含航班数据。

  2. 将压缩文件的内容解压缩,并记下文件名和文件路径。 在稍后的步骤中需要使用此信息。

将源数据复制到存储帐户中

  1. 导航到 Azure 门户中的新存储帐户。

  2. 选择“存储浏览器”->“Blob 容器”->“添加容器”,并创建名为 data 的新容器。

    在存储浏览器中创建文件夹的屏幕截图

  3. 在存储浏览器中,将 On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2016_1.csv 文件上传到“数据”文件夹。

创建 Azure Synapse 工作区

在 Azure 门户中创建 Synapse 工作区。 创建工作区时,请使用以下值:

  • 订阅:选择与 Azure 存储帐户关联的 Azure 订阅。
  • 资源组:选择放置存储帐户的资源组。
  • 区域:选择存储帐户的区域(例如 China North 3)。
  • 名称:输入 Synapse 工作区的名称。
  • SQL 管理员登录:输入 SQL Server 的管理员用户名。
  • SQL 管理员密码:输入 SQL Server 的管理员密码。
  • 标记值:接受默认值。

查找 Synapse SQL 终结点名称(可选)

使用无服务器 SQL 终结点名称服务器名称,可以连接可在 SQL Server 或 Azure SQL 数据库上运行 T-SQL 查询的任何工具(例如:SQL Server Management StudioAzure Data StudioPower BI)。

若要查找完全限定的服务器名称,请执行以下操作:

  1. 选择要连接到的工作区。
  2. 转到“概览”。
  3. 找到完整的服务器名称。
    • 对于专用 SQL 池,请使用 SQL 终结点
    • 对于无服务器 SQL 池,请使用按需 SQL 终结点

本教程使用 Synapse Studio 查询已上传到存储帐户的 CSV 文件中的数据。

使用 Synapse Studio 浏览数据

  1. 打开 Synapse Studio。 请参阅打开 Synapse Studio

  2. 创建 SQL 脚本并运行此查询以查看文件内容:

    SELECT
       TOP 100 *
    FROM
       OPENROWSET(
          BULK 'https://<storage-account-name>.dfs.core.chinacloudapi.cn/<container-name>/folder1/On_Time.csv',
          FORMAT='CSV',
          PARSER_VERSION='2.0'
       ) AS [result]
    

    有关如何在 Synapse Studio 中创建 SQL 脚本的信息,请参阅 Azure Synapse Analytics 中的 Synapse Studio SQL 脚本

清理资源

如果不再需要本文中创建的资源,可以删除资源组和所有相关资源。 为此,请选择存储帐户所在的资源组和工作区,然后选择“删除”。

下一步