本文介绍如何将 Looker 与 Azure Databricks 群集或 Databricks SQL 仓库(以前称为 Databricks SQL 终结点)配合使用。
重要
启用持久派生表 (PDT) 后,默认情况下,Looker 通过连接到关联的数据库每隔 5 分钟重新生成一次 PDT。 Databricks 建议更改默认频率以避免产生额外的计算成本。 有关详细信息,请参阅启用和管理持久派生表 (PDT)。
要求
手动连接到 Looker 之前,需要满足以下条件:
Azure Databricks 工作区中的群集或 SQL 仓库。
群集或 SQL 仓库的连接详细信息,特别是“服务器主机名”、“端口”和“HTTP 路径”值。
一个 Azure Databricks 个人访问令牌。 要创建个人访问令牌,请遵循适用于工作区用户的 Azure Databricks 个人访问令牌中的步骤。
手动连接到 Looker
若要手动连接到 Looker,请执行以下操作:
在 Looker 中,单击“管理”>“连接”>“添加连接”。
为连接输入唯一的名称。
提示
连接名称应仅包含小写字母、数字和下划线。 可以接受其他字符,但可能会在以后导致意外结果。
对于“方言”,选择“Databricks” 。
对于“远程主机”,请输入要求中的“服务器主机名”。
对于“端口”,请输入要求中的“端口”。
对于“数据库”,输入要通过连接访问的工作区中的数据库名称(例如 )。
对于“用户名”,输入单词 。
对于“密码”,请输入要求中的个人访问令牌。
对于“其他参数”,输入 ,并将
transportMode=http;ssl=1;httpPath=<http-path>
替换为要求中的“HTTP 路径”值。如果为工作区启用了 Unity 目录,请另外设置一个默认目录。 输入
ConnCatalog=<catalog-name>
,将<catalog-name>
替换为某个目录的名称。对于“PDT 和数据组维护计划”,输入有效的 表达式以更改重新生成 PDT 的默认频率。 默认频率为五分钟一次。
如果要将查询转换为其他时区,请调整“查询时区”。
对于其余字段,保留默认值,尤其是:
- 保持“最大连接”和“连接池超时”默认值 。
- 将数据库时区留空(假设将所有内容存储在 UTC 中)。
单击“测试这些设置”。
如果测试成功,单击“添加连接”。
在 Looker 中为数据库建模
本部分创建一个项目并运行生成器。 后续步骤假定数据库中存储了用于连接的永久表。
在“开发”菜单上,开启“开发模式” 。
单击“开发”>“管理 LookML 项目”。
单击“新 LookML 项目”。
输入唯一的“项目名称”。
提示
项目名称应仅包含小写字母、数字和下划线。 可以接受其他字符,但可能会在以后生成意外结果。
对于“连接”,选择步骤 2 中的连接名称。
对于“架构”,输入 ,除非其他数据库要通过连接建模。
对于其余字段,保留默认值,尤其是:
- 将“起点”设置为“从数据库架构生成模型” 。
- 将“生成视图的来源”设置为“所有表” 。
单击“创建项目”。
创建项目和生成器运行后,Looker 将显示包含一个 .model
文件和多个 .view
文件的用户界面。
.model
文件显示架构中的表及其之间任何已发现的联接关系,.view
文件列出架构中每个表可用的每个维度(列)。
后续步骤
要开始处理项目,请参阅 Looker 网站上的以下资源:
启用和管理持久派生表 (PDT)
Looker 可以通过创建持久派生表 (PDT) 来减少查询时间和数据库负载。 PDT 是 Looker 写入数据库中暂存架构的派生表。 然后,Looker 按照指定的计划重新生成 PDT。 有关详细信息,请参阅 Looker 文档中的持久派生表 (PDT)。
要为数据库连接启用 PDT,请为该连接选择“持久派生表”并完成屏幕上的说明。 有关详细信息,请参阅 Looker 文档中的持久派生表和为 PDT 进程配置单独的登录凭据。
启用 PDT 后,默认情况下,Looker 通过连接到关联的数据库每隔 5 分钟重新生成一次 PDT。 如果关联的 Azure Databricks 资源停止,Looker 将重启该资源。 Databricks 建议通过将数据库连接的“PDT 和数据组维护计划”字段设置为有效的 表达式来更改默认频率。 有关详细信息,请参阅 Looker 文档中的 PDT 和数据组维护计划。
要启用 PDT 或更改现有数据库连接的 PDT 重新生成频率,请单击“管理”>“数据库连接”,单击数据库连接旁边的“编辑”,然后按照前面的说明进行操作。