本页介绍 AI/BI Genie,这是一项 Azure Databricks 功能,它允许业务团队使用自然语言与其数据进行交互。 它使用专为组织的术语和数据定制的生成 AI,并能够通过用户反馈监视和优化其性能。
概述
领域专家(例如数据分析师)使用数据集、示例查询和文本指南配置 Genie 空间,帮助 Genie 将业务问题转化为分析查询。 设置后,业务用户可以提出问题并生成可视化效果以了解作数据。 随着数据的变化和用户提出新问题,你可以持续更新 Genie 的语义知识。 有关 Databricks AI 提供支持的功能的其他信息,请参阅 Databricks AI 辅助功能。
AI/BI Genie 从带批注的表和列中选择相关名称和说明,以将自然语言问题转换为等效的 SQL 查询。 然后,如果可能,它会使用生成的查询和结果表做出响应。 如果 Genie 无法生成答案,可以在提供回复之前提出后续问题来澄清。
示例用例:
可以创建不同的 Genie 空间来服务各种非技术受众。 以下场景描述了两种可能的用例。
示例 1:可视化机会状态
销售经理希望了解其销售渠道中各个阶段开放和已关闭机会的当前状态。 他们可以使用自然语言与 Genie 空间进行交互,并自动生成可视化结果。
以下 GIF 显示了此交互:
示例 2:跟踪物流
一家物流公司希望使用 Genie 空间帮助不同部门的业务用户跟踪运营和财务详细信息。 他们为货运设施经理设立了一个 Genie 空间来跟踪货运情况,并为财务主管设立了另一个空间来了解其财务状况。
我应使用哪些数据?
Genie 空间基于注册到 Unity Catalog 的数据,包括托管表、外部表、外表、视图、指标视图和具体化视图。 AI/BI Genie 使用附加到 Unity 目录对象的元数据以及作者策划的空间级 知识存储来生成响应。 带有明确批注的数据集以及你提供的具体指令,是为最终用户创造积极体验的关键。
文件上传
重要
此功能目前以公共预览版提供。
文件上传允许用户将本地 CSV 和 Excel 文件与 Unity 目录数据混合,以回答问题。 若要启用文件上传,请联系 Databricks 帐户团队。 有关详细信息,请参阅上传文件。
Genie 的工作原理
Genie 使用 复合 AI 系统 来解释业务问题和生成答案。 复合 AI 系统通过组合多个交互组件来处理 AI 应用程序中的任务,而不是使用单个大型语言模型。 复合 AI 系统是 AI 应用程序的越来越常见的设计模式,因为它们的性能和灵活性。 有关详细信息,请参阅 从模型转移到复合 AI 系统。
什么是 Genie 的知识存储?
Genie 的知识库允许作者:
在本地编辑元数据: Genie 作者可以将特定于空间的元数据添加到数据资产。 例如,它可以包含与空间的使用方式相关的公司特定信息。 这包括表和列元数据说明、列级同义词、采样值和值字典,Genie 在生成答案时会查阅这些说明。 详细的元数据层可帮助 Genie 检索正确的信息并生成更准确的结果。
提供结构化细化指令: 作者可以定义表之间的 JOIN 关系,以教 Genie 如何跨多个表创作 SQL。
请参阅 构建更可靠的 Genie 空间的知识存储。
Genie 如何生成响应?
当用户提交问题时,Genie 会分析请求、标识相关的数据源,并确定如何生成适当的响应。 作者提供的详细信息与相关的 Unity 目录注释、元数据和值相结合,使 Genie 能够推断业务和技术逻辑。 Genie 智能地筛选示例 SQL 查询、表和列元数据以及聊天历史记录,以选择最相关的上下文来响应请求。
Genie 使用如下所示的组件生成响应:
- Unity 目录表元数据:包括表名称、说明和定义的主键(PK)和外键(FK)关系。 Genie 使用此数据,因为它分析请求并将自然语言提示转换为 SQL。
- 列名和描述:Genie 可智能筛选要包含的相关列名和描述。
- 知识存储上下文:作者可以本地编辑资产元数据,并选择为 Genie 提供相关值的列。 这有助于 Genie 生成更准确的响应,并且不会更改现有的 Unity 目录元数据。 请参阅 构建更可靠的 Genie 空间的知识存储。
- 示例 SQL 查询:Genie 智能地从 SQL 查询中选择相关的 SQL 示例。
- SQL 函数:已添加到空间中的所有 SQL 函数。
- 说明:作为“常规说明”提供的纯文本说明以上下文形式提供。
- 提示和响应历史记录:当前聊天中的提示和响应作为上下文包含在内。 由于设置了令牌限制,将根据需要排除时间最早的聊天记录。
注释
默认情况下不包括某些表详细信息,例如所有者和表大小。 若要访问此信息,请使用可用于所有 Unity 目录的信息架构中的视图。 默认视图可能包含不必要的详细信息,因此,基于该视图创建自定义视图有助于专注于所需的特定信息。 有关信息架构中可用内容的详细信息,请参阅 信息架构。
在许多情况下,Genie 会生成在空间的 SQL 仓库上运行的 SQL 查询。 生成的查询始终为只读。 重试处理自动化,SQL 仓库负责并发性和扩展性。 结果集作为响应的一部分显示。
Genie 维护强大的安全和隐私控制。 有关详细信息,请参阅 Databricks AI 辅助功能信任和安全。
设置精灵空间
如果具有以下条件,则可以创建 Genie 空间:
- Databricks SQL 权利。
- 至少拥有使用专业或无服务器 SQL 仓库的权限。
-
SELECT至少对一个或多个 Unity 目录数据对象具有特权。
AI/BI 仪表板的配套 Genie 空间(公共预览版)
可以使用自然语言提示通过 Databricks 助手为 AI/BI 仪表板生成可视化效果。 请参阅使用 Databricks 助手创建可视化效果。
创建仪表板时,Databricks 会自动创建一个配套的 Genie 空间,使业务用户使用自然语言进行自助数据分析。
与 Genie 空间交互
业务团队是 Genie 空间的最终用户。 若要使用 Genie 空间,业务用户必须具有:
- 使用者访问或 Databricks SQL 权利。
- 至少对为 Genie 空间指定的默认仓库具有“可以使用”权限。
- 至少对空间中使用的所有 Unity Catalog 数据对象具有
SELECT特权。
业务用户可以通过在开发过程中测试和提供反馈来协助管理空间。 若要详细了解业务用户如何开始使用 Genie 空间,请参阅 使用 Genie 空间浏览业务数据。
受信任资产
可信资产为空间用户的结果准确性增加一层保障。 当参数化示例查询或 SQL 函数的确切文本用于生成响应时,Genie 会将响应标记为 “受信任”。 要了解更多有关受信任资产的信息,请参阅 AI/BI Genie 空间中的《使用受信任资产》。 请参阅 SQL 查询中的“使用参数 ”详细了解如何使用参数化查询。
使用基准评估响应
你可以通过基准测试来扩大 Genie 空间中单个响应的测试和评估。 与指令不同,基准测试旨在评估你的 Genie 空间,而不是向你发出通知。 Genie 不使用基准问题或示例 SQL 来改进 Genie 的上下文。
使用基准测试,可以运行一系列测试问题,并使用响应来衡量 Genie 的准确性。 (可选)可以包含返回预期结果的 SQL 语句。 基准问题运行时,Genie 的响应与 SQL 语句提供的结果进行比较,并针对准确性评分。 如果未提供 SQL 答案,则会标记问题以供评审。
请参阅在 Genie 空间中使用基准。
隐私和安全
Genie 空间中的数据访问受 Unity 目录控制,包括已应用于表的任何行筛选器和列掩码。 请参阅 数据访问控制 和 行筛选器和列掩码。
有关其他隐私和安全常见问题解答,请参阅 AI 辅助功能的隐私和安全常见问题解答。