连接到 Syncsort

重要

此功能目前以公共预览版提供。

通过将旧数据、大型机数据和 IBM 数据与 Azure Databricks 集成,Syncsort 有助于打破数据孤岛。 你可以轻松地将数据从这些源拉取到 Delta Lake。

以下是结合使用 Syncsort 与 Azure Databricks 的步骤。

步骤 1:生成 Databricks 个人访问令牌

Syncsort 使用 Azure Databricks 个人访问令牌在 Azure Databricks 中进行身份验证。

注意

作为安全最佳做法,在使用自动化工具、系统、脚本和应用进行身份验证时,Databricks 建议使用属于服务主体(而不是工作区用户)的个人访问令牌。 若要为服务主体创建令牌,请参阅管理服务主体的令牌

步骤2:设置群集来支持集成需求

Syncsort 会将数据写入 Azure Data Lake Storage 路径,而 Azure Databricks 集成群集将从该位置读取数据。 因此,集成群集需要能够安全地访问 Azure Data Lake Storage 路径。

安全地访问 Azure Data Lake Storage 路径

若要安全地访问 Azure Data Lake Storage (ADLS) 中的数据,可使用 Azure 存储帐户访问密钥(推荐)或 Microsoft Entra ID 服务主体。

使用 Azure 存储帐户访问密钥

可在配置 Spark 期间在集成群集上配置存储帐户访问密钥。 确保存储帐户可访问用于暂存数据的 ADLS 容器和文件系统,以及要在其中写入 Delta Lake 表的 ADLS 容器和文件系统。 若要将集成群集配置为使用密钥,请按照连接到 Azure Data Lake Storage Gen2 和 Blob 存储中的步骤操作。

使用 Microsoft Entra ID 服务主体

可在配置 Spark 期间在 Azure Databricks 集成群集上配置服务主体。 确保服务主体可访问用于暂存数据的 ADLS 容器,以及要在其中写入 Delta 表的 ADLS 容器。 若要将集成群集配置为使用服务主体,请按照使用服务主体访问 ADLS Gen2 中的步骤操作。

指定群集配置

  1. 将“群集模式”设置为“标准” 。

  2. 将“Databricks Runtime 版本”设置为 Databricks 运行时版本。

  3. 通过将以下属性添加到 Spark 配置,启用优化的写入和自动压缩

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. 根据集成和缩放需求配置群集。

有关群集配置的详细信息,请参阅计算配置参考

有关获取 JDBC URL 和 HTTP 路径的步骤,请参阅获取 Azure Databricks 计算资源的连接详细信息

步骤 3:获取 JDBC 和 ODBC 连接详细信息以连接到群集

若要将 Azure Databricks 群集连接到 Syncsort,你需要以下 JDBC/ODBC 连接属性:

  • JDBC URL
  • HTTP 路径

步骤 4:使用 Azure Databricks 配置 Syncsort

转到 Databricks 和 Connect for Big Data 登录页,然后按照说明进行操作。

其他资源

支持