连接到 Infoworks
重要
此功能目前以公共预览版提供。
Infoworks DataFoundry 是自动化的企业数据运营和业务流程系统,本地运行于 Azure Databricks,可充分利用 Azure Databricks 来提供简单的数据加入解决方案,而数据加入是运营数据湖的关键第一步。 DataFoundry 不仅自动执行数据引入,还自动执行为建立分析的基础而必须伴随引入的关键功能。 使用 DataFoundry 进行数据加入可自动执行以下操作:
- 数据引入:来自所有企业和外部数据源
- 数据同步:CDC 使数据与源保持同步
- 数据治理:编目、世系、元数据管理、审计和历史记录
以下是结合使用 Infoworks 与 Azure Databricks 的步骤。
步骤 1:生成 Databricks 个人访问令牌
Infoworks 使用 Azure Databricks 个人访问令牌在 Azure Databricks 中进行身份验证。
注意
作为安全最佳做法,在使用自动化工具、系统、脚本和应用进行身份验证时,Databricks 建议使用属于服务主体(而不是工作区用户)的个人访问令牌。 若要为服务主体创建令牌,请参阅管理服务主体的令牌。
步骤2:设置群集来支持集成需求
Infoworks 会将数据写入 Azure Data Lake Storage 路径,而 Azure Databricks 集成群集将从该位置读取数据。 因此,集成群集需要能够安全地访问 Azure Data Lake Storage 路径。
安全地访问 Azure Data Lake Storage 路径
若要安全地访问 Azure Data Lake Storage (ADLS) 中的数据,可使用 Azure 存储帐户访问密钥(推荐)或 Microsoft Entra ID 服务主体。
使用 Azure 存储帐户访问密钥
可在配置 Spark 期间在集成群集上配置存储帐户访问密钥。 确保存储帐户可访问用于暂存数据的 ADLS 容器和文件系统,以及要在其中写入 Delta Lake 表的 ADLS 容器和文件系统。 若要将集成群集配置为使用密钥,请按照连接到 Azure Data Lake Storage Gen2 和 Blob 存储中的步骤操作。
使用 Microsoft Entra ID 服务主体
可在配置 Spark 期间在 Azure Databricks 集成群集上配置服务主体。 确保服务主体可访问用于暂存数据的 ADLS 容器,以及要在其中写入 Delta 表的 ADLS 容器。 若要将集成群集配置为使用服务主体,请按照使用服务主体访问 ADLS Gen2 中的步骤操作。
指定群集配置
将“群集模式”设置为“标准” 。
将“Databricks Runtime 版本”设置为 Databricks 运行时版本。
通过将以下属性添加到 Spark 配置,启用优化的写入和自动压缩:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
根据集成和缩放需求配置群集。
有关群集配置的详细信息,请参阅计算配置参考。
有关获取 JDBC URL 和 HTTP 路径的步骤,请参阅获取 Azure Databricks 计算资源的连接详细信息。
步骤 3:获取 JDBC 和 ODBC 连接详细信息以连接到群集
若要将 Azure Databricks 群集连接到 Infoworks,你需要以下 JDBC/ODBC 连接属性:
- JDBC URL
- HTTP 路径
步骤 4:获取 Azure Databricks 的 Infoworks
转到 Infoworks,了解更多信息并获取演示。