Microsoft Azure 的大数据解决方案将 Microsoft Azure 商业智能 (BI) 组件与已在 HDInsight 中部署的 Apache Hadoop 群集集成。 一个示例是能够将 Excel 连接到 Hadoop 群集的 Hive 数据仓库。 使用 Microsoft Azure Hive 开放式数据库连接 (ODBC) 驱动程序进行连接。
可以使用适用于 Excel 的 Microsoft Azure Power Query 加载项从 Excel 连接与 HDInsight 群集关联的数据。 有关详细信息,请参阅使用 Power Query 将 Excel 连接到 HDInsight。
在开始阅读本文前,必须具有以下项:
- HDInsight Hadoop 群集。 要创建此群集,请参阅 Azure HDInsight 入门。
- 具有 Office 2010 Professional Plus 或更高版本,或 Excel 2010 或更高版本的工作站。
下载并安装 Microsoft Hive ODBC 驱动程序。 选择与可在其中使用 ODBC 驱动程序的应用程序版本匹配的版本。 在本文中,驱动程序用于 Office Excel。
下列步骤演示如何创建 Hive ODBC 数据源。
在 Windows 中,导航到“开始”>“Windows 管理工具”>“ODBC 数据源(32 位)/(64 位)”。 此操作会打开“ODBC 数据源管理器”窗口。
在“用户 DSN”选项卡中,选择“添加”,打开“
Create New Data Source
”窗口。选择“Microsoft Hive ODBC 驱动程序”,然后选择“完成”,打开“Microsoft Hive ODBC 驱动程序 DSN 设置”窗口 。
键入或选择以下值:
属性 说明 数据源名称 为数据源提供名称 主机 输入 HDInsightClusterName.azurehdinsight.cn
。 例如,myHDICluster.azurehdinsight.cn
。 注意:只要客户端 VM 对等互连到同一虚拟网络,就支持HDInsightClusterName-int.azurehdinsight.cn
。端口 使用 443。 (此端口已从 563 更改为 443。) 数据库 使用“默认”。 机制 选择“Windows Azure HDInsight 服务” 用户名 输入 HDInsight 群集 HTTP 用户的用户名。 默认用户名为 admin
。密码 输入 HDInsight 群集用户的密码。 选中复选框“保存密码(加密)”。 可选:选择“高级选项...”
参数 说明 使用本机查询 当此项处于选中状态时,ODBC 驱动程序不会尝试将 TSQL 转换为 HiveQL。 仅当 100% 确定提交的是纯 HiveQL 语句时,才应使用此项。 连接 SQL Server 或 Azure SQL 数据库时,应将此项保留为未选中状态。 每块提取的行数 提取大量记录时,可能需要调整此参数以确保最佳性能。 默认字符串列长度、二进制列长度、十进制列小数位数 数据类型长度和精度可能会影响返回数据的方式。 由于精度损失或截断,可能会导致返回不正确的信息。 选择“测试”以测试数据源。 如果数据源配置正确,测试结果会显示“成功!”
选择“确定”以关闭“测试”窗口。
选择“确定”以关闭“Microsoft Hive ODBC 驱动程序 DSN 设置”窗口 。
选择“确定”以关闭“ODBC 数据源管理器”窗口 。
下列步骤介绍如何使用在前面部分中创建的 ODBC 数据源将数据从 Hive 表导入到 Excel 工作簿。
在 Excel 中打开新工作簿或现有工作簿。
在“数据”选项卡中,导航到“获取数据”>“从其他源”>“从 ODBC”来启动“从 ODBC”窗口 。
在下拉列表中,选择在上一部分创建的数据源名称,然后选择“确定”。
第一次使用时,将打开“ODBC 驱动程序”对话框。 从左侧菜单中选择 Windows。 然后选择“连接”以打开“导航器”窗口。
在“导航器”中,导航到“HIVE”>“默认”>“hivesampletable”,然后选择“加载”。 需要一段时间才能将数据导入到 Excel 中。
在本文中,已了解如何使用 Microsoft Azure Hive ODBC 驱动程序将来自 HDInsight 服务的数据检索到 Excel 中。 同样地,也可以将来自 HDInsight 服务的数据检索到 SQL 数据库中。 也可以将数据上传到 HDInsight 服务中。 若要了解更多信息,请参阅以下文章: