如何:创建空的湖数据库

在本文中,你将了解如何在 Azure Synapse Analytics 中使用数据库设计器创建空的湖数据库。 使用数据库设计器,无需编写任何代码即可轻松创建和部署数据库。

先决条件

  • 从库中浏览湖数据库模板至少需要具有 Synapse 用户角色权限。
  • 创建湖数据库需要对 Synapse 工作区具有 Synapse 管理员、Synapse 参与者或 Synapse 项目发布者权限。
  • 使用“从数据湖创建表”选项时,你需要拥有对数据湖的“存储 Blob 数据参与者”权限。

通过数据库模板创建湖数据库

  1. 在 Azure Synapse Analytics 工作区“主页”中心,选择左侧的“数据”选项卡 。 此时会打开“数据”选项卡,其中显示了你的工作区中现有的数据库列表。

  2. 将鼠标悬停在 按钮上并选择该按钮,然后选择“湖数据库”+

    Screenshot showing create empty lake database

  3. “数据库设计器”选项卡将打开,其中包含一个空数据库。

  4. 数据库设计器的右侧有一些需要配置的属性。

    • 名称 - 为数据库指定名称。 发布数据库后无法编辑名称,因此请确保选择的名称正确。
    • 说明 - 为数据库提供说明是可选操作,但它可以帮助用户了解数据库的用途。
    • 数据库的存储设置 - 此部分包含数据库中表的默认存储信息。 默认设置将应用于数据库中的每个表,除非表本身替代了这些设置。
    • 链接服务 - 这是用于在 Azure Data Lake Storage 中存储数据的默认链接服务。 将显示与 Synapse 工作区关联的默认链接服务,但你可以将“链接服务”更改为所需的任何 ADLS 存储帐户。
    • 输入文件夹 - 用于在使用文件浏览器的链接服务中设置默认容器和文件夹路径。
    • 数据格式 - Azure Synapse 中的湖数据库支持使用 parquet 格式和带分隔符的文本作为数据存储格式。

注意

你始终可以逐个表替代默认存储设置,并且默认值一直可自定义。 如果你不确定要选择什么,可以稍后再执行此设置。

  1. 若要向数据库中添加表,请选择“+ 表”按钮。

    • 选择“自定义”会在画布中添加一个新表。
    • 选择“从模板”会打开库,然后你可以选择在添加新表时要使用的数据库模板。
    • 选择“从数据湖”可以使用湖中已有的数据导入表架构。
  2. 选择“自定义”。 画布上将出现一个名为 Table_1 的新表。

  3. 然后你可以自定义 Table_1,包括表名、说明、存储设置、列和关系。 有关详细信息,请参阅修改湖数据库

  4. 依次选择“+ 表”、“从数据湖”,从数据湖添加一个新表 。

  5. 此时会显示“从数据湖创建外部表”窗格。 在该窗格中填写以下详细信息,然后选择“继续”。

    • 外部表名:要为创建的表指定的名称。
    • 链接服务:包含数据文件所在的 Azure Data Lake Storage 位置的链接服务。
    • 输入文件或文件夹:使用文件浏览器在湖中导航到并选择一个要用于创建表的文件。 Screenshot showing the options on the create external table from data lake pane
    • 在下一个屏幕上,Azure Synapse 将显示文件预览并检测架构。
    • 你将进入“新建外部表”页,可以在其中更新与数据格式相关的任何设置,以及使用“预览数据”来检查 Synapse 是否正确识别了文件 。
    • 如果对设置感到满意,请选择“创建”。
    • 具有所选名称的新表将添加到画布中,“表的存储设置”部分将显示你指定的文件。
  6. 自定义数据库后,接下来可以发布它了。

    • 在发布数据库之前,系统会验证它是否存在错误。 发现的任何错误都将显示在通知选项卡中,并且还会提供有关如何修正错误的说明。

      Screenshot of the validation pane showing validation errors in the database

    • 发布过程将在 Azure Synapse 元存储中创建数据库架构。 发布后,数据库和表对象将对其他 Azure 服务可见,并允许数据库中的元数据流入 Power BI 之类的应用。

  7. 现在,你已在 Azure Synapse 中创建了一个空的湖数据库,并使用“自定义”和“从数据湖”选项向其中添加了表。

后续步骤

使用以下链接继续探索数据库设计器功能。