连接到 Qlik 复制
重要
此功能目前以公共预览版提供。
Qlik Replicate 可帮助你将多个数据源(Oracle、Microsoft SQL Server、SAP 和大型机等)中的数据拉取到 Delta Lake。 Replicate 的自动变更数据捕获 (CDC) 有助于避免手动提取数据、使用 API 脚本传输、拆分、暂存和导入等繁重任务。 Qlik Compose 会自动将 CDC 引入到 Delta Lake。
注意
有关帮助你分析 Delta Lake 中数据的解决方案 Qlik Sense 的信息,请参阅连接到 Qlik Sense。
下面是结合使用 Qlik Replicate 与 Azure Databricks 的步骤。
步骤 1:生成 Databricks 个人访问令牌
Qlik Replicate 使用 Azure Databricks 个人访问令牌在 Azure Databricks 中进行身份验证。
注意
作为安全最佳做法,在使用自动化工具、系统、脚本和应用进行身份验证时,Databricks 建议使用属于服务主体(而不是工作区用户)的个人访问令牌。 若要为服务主体创建令牌,请参阅管理服务主体的令牌。
步骤2:设置群集来支持集成需求
Qlik Replicate 会将数据写入 Azure Data Lake Storage 路径,而 Azure Databricks 集成群集将从该位置读取数据。 因此,集成群集需要能够安全地访问 Azure Data Lake Storage 路径。
安全地访问 Azure Data Lake Storage 路径
若要安全地访问 Azure Data Lake Storage (ADLS) 中的数据,可使用 Azure 存储帐户访问密钥(推荐)或 Microsoft Entra ID 服务主体。
使用 Azure 存储帐户访问密钥
可在配置 Spark 期间在集成群集上配置存储帐户访问密钥。 确保存储帐户可访问用于暂存数据的 ADLS 容器和文件系统,以及要在其中写入 Delta Lake 表的 ADLS 容器和文件系统。 若要将集成群集配置为使用密钥,请按照连接到 Azure Data Lake Storage Gen2 和 Blob 存储中的步骤操作。
使用 Microsoft Entra ID 服务主体
可在配置 Spark 期间在 Azure Databricks 集成群集上配置服务主体。 确保服务主体可访问用于暂存数据的 ADLS 容器,以及要在其中写入 Delta 表的 ADLS 容器。 若要将集成群集配置为使用服务主体,请按照使用服务主体访问 ADLS Gen2 中的步骤操作。
指定群集配置
将“群集模式”设置为“标准” 。
将“Databricks Runtime 版本”设置为 Databricks 运行时版本。
通过将以下属性添加到 Spark 配置,启用优化的写入和自动压缩:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
根据集成和缩放需求配置群集。
有关群集配置的详细信息,请参阅计算配置参考。
有关获取 JDBC URL 和 HTTP 路径的步骤,请参阅获取 Azure Databricks 计算资源的连接详细信息。
步骤 3:获取 JDBC 和 ODBC 连接详细信息以连接到群集
若要将 Azure Databricks 群集连接到 Qlik Replicate,需要以下 JDBC/ODBC 连接属性:
- JDBC URL
- HTTP 路径
步骤 4:使用 Azure Databricks 配置 Qlik Replicate
转到 Qlik 登录页面,然后按照说明进行操作。