快速入门:创建 Synapse 工作区

在本快速入门中,你将创建一个 Synapse 工作区,并遵循本教程的其余部分来创建专用 SQL 池和无服务器 Apache Spark 池。

先决条件

  • 如果没有 Azure 订阅,可在开始前创建一个�试用帐户�。
  • 若要完成本教程的步骤,你需要有权访问针对其分配了“所有者”角色的资源组。 在此资源组中创建 Synapse 工作区。

在 Azure 门户中创建 Synapse 工作区

启动此过程

  1. 打开 Azure 门户,在搜索栏中输入“Synapse”(不要点击 Enter)。
  2. 在“服务”下的搜索结果中,选择“Azure Synapse Analytics” 。
  3. 选择“创建”以创建工作区。

“基本信息”选项卡 >“项目详细信息”

填写以下字段:

  1. 订阅 - 选取任何订阅。
  2. 资源组 - 使用任何资源组。
  3. 受管理资源组 - 请将此项留空。

“基本信息”选项卡 >“工作区详细信息”

填写以下字段:

  1. 工作区名称 - 选取任何全局唯一名称。 在本教程中,我们将使用 myworkspace。
  2. 区域 - 选择放置客户端应用程序/服务(例如 Azure 虚拟机、Power BI、Azure Analysis Service)和包含数据的存储(例如 Azure Data Lake 存储、Azure Cosmos DB 分析存储)的区域

注意

工作区与客户端应用程序或存储没有位于同一位置,可能是许多性能问题的根本原因。 如果将数据或客户端放置在多个区域中,则可以在与数据和客户端位于同一位置的其他区域中创建单独的工作区。

在“选择 Data Lake Storage 第二代”下方:

  1. 对于“帐户名称”,选择“新建”,然后将新存储帐户命名为 contosolake 或类似名称,因为它必须是唯一的 。

    提示

    如果收到“Azure Synapse 资源提供程序 (Microsoft.Synapse) 需要注册到所选订阅”错误,请打开 Azure 门户并选择“订阅”。 选择订阅。 在“设置”列表下,选择“资源提供程序”。 搜索“Microsoft.Synapse”,将其选中,然后选择“注册”

  2. 对于“文件系统名称”,选择“新建”,然后将其命名为 users 。 这将创建一个名为“users”的存储容器。 工作区将使用此存储帐户作为 Spark 表和 Spark 应用程序日志的“主要”存储帐户。

  3. 选中“在 Data Lake Storage Gen2 帐户上自行分配存储 Blob 数据参与者角色”框

完成此过程

选择“查看 + 创建”>“创建”。 你的工作区将在几分钟内准备就绪。

打开 Synapse Studio

创建 Azure Synapse 工作区后,可以通过两种方式打开 Synapse Studio:

  1. Azure 门户中打开 Synapse 工作区,在 Synapse 工作区的“概述”部分中,在“打开 Synapse Studio”框中选择“打开” 。

  2. 转到 https://web.azuresynapse.azure.cn,然后登录到工作区。

    登录到工作区

注意

若要登录到工作区,可以使用两种帐户选择方法。 一种是从 Azure 订阅进行选择,另一种是通过手动输入选择帐户 。 如果你有 Synapse Azure 角色或更高级别的 Azure 角色,可以使用这两种方法登录到工作区。 如果没有相关的 Azure 角色,而被授予了 Synapse RBAC 角色,则只有手动输入才能登录到工作区。 若要详细了解 Synapse RBAC,请参阅什么是 Synapse 基于角色的访问控制 (RBAC)

将示例数据放入主存储帐户

我们将在本入门指南的许多示例中使用纽约市出租车数据的小型示例数据集(10 万行)。 首先,将其放在为工作区创建的主存储帐户中。

  1. NYC 出租车 - 绿色行程数据集下载到计算机:
    1. 从链接导航到原始数据集位置,选择特定年份并下载 Parquet 格式的绿色出租车行程记录。
    2. 将下载的文件重命名为 NYCTripSmall.parquet。
  2. 在 Synapse Studio 中,导航到“数据”中心。
  3. 选择“已链接”。
  4. 在 Azure Data Lake Storage Gen2 类别下,将看到一个名称类似于 myworkspace ( Primary - contosolake ) 的项
  5. 选择名为 users (Primary) 的容器。
  6. 选择“上传”并选择已下载的 NYCTripSmall.parquet 文件。

上传 parquet 文件后,可通过两个等效的 URI 获取它:

  • https://contosolake.dfs.core.chinacloudapi.cn/users/NYCTripSmall.parquet
  • abfss://users@contosolake.dfs.core.chinacloudapi.cn/NYCTripSmall.parquet

提示

在本教程后面的示例中,请确保将 UI 中的 contosolake 替换为你为工作区选择的主存储帐户的名称。

后续步骤