使用 Microsoft Azure Hive ODBC 驱动程序将 Excel 连接到 Azure HDInsight 中的 Apache Hadoop

Microsoft Azure 的大数据解决方案将 Microsoft Azure 商业智能 (BI) 组件与已在 HDInsight 中部署的 Apache Hadoop 群集集成。 一个示例是能够将 Excel 连接到 Hadoop 群集的 Hive 数据仓库。 使用 Microsoft Azure Hive 开放式数据库连接 (ODBC) 驱动程序进行连接。

可以使用适用于 Excel 的 Microsoft Azure Power Query 加载项从 Excel 连接与 HDInsight 群集关联的数据。 有关详细信息,请参阅使用 Power Query 将 Excel 连接到 HDInsight

先决条件

在开始阅读本文前,必须具有以下项:

  • HDInsight Hadoop 群集。 要创建此群集,请参阅 Azure HDInsight 入门
  • 具有 Office 2010 Professional Plus 或更高版本,或 Excel 2010 或更高版本的工作站。

安装 Microsoft Azure Hive ODBC 驱动程序

下载并安装 Microsoft Hive ODBC 驱动程序。 选择与可在其中使用 ODBC 驱动程序的应用程序版本匹配的版本。 在本文中,驱动程序用于 Office Excel。

创建 Apache Hive ODBC 数据源

下列步骤演示如何创建 Hive ODBC 数据源。

  1. 在 Windows 中,导航到“开始”>“Windows 管理工具”>“ODBC 数据源(32 位)/(64 位)”。 此操作会打开“ODBC 数据源管理器”窗口

    ODBC 数据源管理器。

  2. 在”用户 DSN”选项卡中,选择“添加”,打开“创建新数据源”窗口 。

  3. 选择“Microsoft Hive ODBC 驱动程序”,然后选择“完成”,打开“Microsoft Hive ODBC 驱动程序 DSN 设置”窗口 。

  4. 键入或选择以下值:

    属性 说明
    数据源名称 为数据源提供名称
    主机 输入 HDInsightClusterName.azurehdinsight.cn。 例如,myHDICluster.azurehdinsight.cn。 注意:只要客户端 VM 对等互连到同一虚拟网络,就支持 HDInsightClusterName-int.azurehdinsight.cn
    端口 使用 443。 (此端口已从 563 更改为 443。)
    数据库 使用“默认”。
    机制 选择“Windows Azure HDInsight 服务”
    用户名 输入 HDInsight 群集 HTTP 用户的用户名。 默认用户名为 admin
    密码 输入 HDInsight 群集用户的密码。 选中复选框“保存密码(加密)”。
  5. 可选:选择“高级选项...”

    参数 说明
    使用本机查询 当此项处于选中状态时,ODBC 驱动程序不会尝试将 TSQL 转换为 HiveQL。 仅当 100% 确定提交的是纯 HiveQL 语句时,才应使用此项。 连接 SQL Server 或 Azure SQL 数据库时,应将此项保留为未选中状态。
    每块提取的行数 提取大量记录时,可能需要调整此参数以确保最佳性能。
    默认字符串列长度、二进制列长度、十进制列小数位数 数据类型长度和精度可能会影响返回数据的方式。 由于精度损失或截断,可能会导致返回不正确的信息。

    高级 DSN 配置选项。

  6. 选择“测试”以测试数据源。 如果数据源配置正确,测试结果会显示“成功!”

  7. 选择“确定”以关闭“测试”窗口。

  8. 选择“确定”以关闭“Microsoft Hive ODBC 驱动程序 DSN 设置”窗口 。

  9. 选择“确定”以关闭“ODBC 数据源管理器”窗口 。

将 HDInsight 中的数据导入到 Excel 中

下列步骤介绍如何使用在前面部分中创建的 ODBC 数据源将数据从 Hive 表导入到 Excel 工作簿。

  1. 在 Excel 中打开新工作簿或现有工作簿。

  2. 在“数据”选项卡中,导航到“获取数据”>“从其他源”>“从 ODBC”来启动“从 ODBC”窗口 。

    打开 Excel 数据连接向导。

  3. 在下拉列表中,选择在上一部分创建的数据源名称,然后选择“确定”。

  4. 第一次使用时,将打开“ODBC 驱动程序”对话框。 从左侧菜单中选择 Windows。 然后选择“连接”以打开“导航器”窗口。

  5. 在“导航器”中,导航到“HIVE”>“默认”>“hivesampletable”,然后选择“加载”。 需要一段时间才能将数据导入到 Excel 中。

    HDInsight Excel Hive ODBC 导航器。

后续步骤

在本文中,已了解如何使用 Microsoft Azure Hive ODBC 驱动程序将来自 HDInsight 服务的数据检索到 Excel 中。 同样地,也可以将来自 HDInsight 服务的数据检索到 SQL 数据库中。 也可以将数据上传到 HDInsight 服务中。 若要了解更多信息,请参阅以下文章: