使用 Microsoft Hive ODBC 驱动程序将 Excel 连接到 Azure HDInsight 中的 Apache HadoopConnect Excel to Apache Hadoop in Azure HDInsight with the Microsoft Hive ODBC driver

Microsoft 的大数据解决方案将 Microsoft 商业智能 (BI) 组件与已在 HDInsight 中部署的 Apache Hadoop 群集集成。Microsoft's Big Data solution integrates Microsoft Business Intelligence (BI) components with Apache Hadoop clusters deployed in HDInsight. 一个示例是能够将 Excel 连接到 Hadoop 群集的 Hive 数据仓库。An example is the ability to connect Excel to the Hive data warehouse of a Hadoop cluster. 使用 Microsoft Hive 开放式数据库连接 (ODBC) 驱动程序进行连接。Connect using the Microsoft Hive Open Database Connectivity (ODBC) Driver.

还可以使用用于 Excel 的 Microsoft Power Query 外接程序从 Excel 连接与 HDInsight 群集和其他数据源(包括其他非 HDInsight Hadoop 群集)关联的数据。It is also possible to connect the data associated with an HDInsight cluster and other data sources, including other (non-HDInsight) Hadoop clusters, from Excel using the Microsoft Power Query add-in for Excel. 有关安装和使用 Power Query 的信息,请参阅使用 Power Query 将 Excel 连接到 HDInsightFor information on installing and using Power Query, see Connect Excel to HDInsight with Power Query.

先决条件Prerequisites

在开始阅读本文前,必须具有以下项:Before you begin this article, you must have the following items:

  • HDInsight Hadoop 群集。An HDInsight Hadoop cluster. 要创建此群集,请参阅 Azure HDInsight 入门To create one, see Get started with Azure HDInsight.
  • 具有 Office 2010 Professional Plus 或更高版本,或 Excel 2010 或更高版本的工作站。A workstation with Office 2010 Professional Plus or later, or Excel 2010 or later.

安装 Microsoft Hive ODBC 驱动程序Install Microsoft Hive ODBC driver

下载并安装与将在其中使用 ODBC 驱动程序的应用程序版本匹配的 Microsoft Hive ODBC 驱动程序版本。Download and install the Microsoft Hive ODBC Driver version that matches the version of the application where you will be using the ODBC driver. 在本文中,驱动程序用于 Office Excel。For this article, the driver is used for Office Excel.

创建 Apache Hive ODBC 数据源Create Apache Hive ODBC data source

下列步骤演示如何创建 Hive ODBC 数据源。The following steps show you how to create a Hive ODBC Data Source.

  1. 在 Windows 中,导航到“开始”>“Windows 管理工具”>“ODBC 数据源(32 位)/(64 位)”。From Windows, navigate to Start > Windows Administrative Tools > ODBC Data Sources (32-bit)/(64-bit). 此操作会打开“ODBC 数据源管理器”窗口 。This opens the ODBC Data Source Administrator window.

    ODBC 数据源管理器OBDC data source administrator

  2. 在”用户 DSN”选项卡中,选择“添加”,打开“创建新数据源”窗口 。From the User DSN tab, select Add to open the Create New Data Source window.

  3. 选择“Microsoft Hive ODBC 驱动程序”,然后选择“完成”,打开“Microsoft Hive ODBC 驱动程序 DSN 设置”窗口 。Select Microsoft Hive ODBC Driver, and then select Finish to open the Microsoft Hive ODBC Driver DSN Setup window.

  4. 键入或选择以下值:Type or select the following values:

    属性Property 说明Description
    数据源名称Data Source Name 为数据源提供名称Give a name to your data source
    主机Host(s) 输入 HDInsightClusterName.azurehdinsight.cnEnter HDInsightClusterName.azurehdinsight.cn. 例如,myHDICluster.azurehdinsight.cnFor example, myHDICluster.azurehdinsight.cn. 注意:只要客户端 VM 对等互连到同一虚拟网络,就支持 HDInsightClusterName-int.azurehdinsight.cnNote: HDInsightClusterName-int.azurehdinsight.cn is supported so long as the client VM is peered to the same virtual network.
    端口Port 使用 443Use 443. (此端口已从 563 更改为 443。)(This port has been changed from 563 to 443.)
    数据库Database 使用“默认” 。Use default.
    机制Mechanism 选择“Windows Azure HDInsight 服务” Select Windows Azure HDInsight Service
    用户名User Name 输入 HDInsight 群集 HTTP 用户的用户名。Enter HDInsight cluster HTTP user username. 默认的用户名为 adminThe default username is admin.
    密码Password 输入 HDInsight 群集用户的密码。Enter HDInsight cluster user password. 选中复选框“保存密码(加密)” 。Select the checkbox Save Password (Encrypted).
  5. 可选:选择“高级选项...” Optional: Select Advanced Options...

    参数Parameter 说明Description
    使用本机查询Use Native Query 选择此项时,ODBC 驱动程序不会尝试将 TSQL 转换为 HiveQL。When it is selected, the ODBC driver does NOT try to convert TSQL into HiveQL. 只应在 100% 确定提交的是纯 HiveQL 语句时使用此项。You shall use it only if you are 100% sure you are submitting pure HiveQL statements. 连接 SQL Server 或 Azure SQL 数据库时,应将此项保留为未选中状态。When connecting to SQL Server or Azure SQL Database, you should leave it unchecked.
    每块提取的行数Rows fetched per block 提取大量记录时,可能需要调整此参数以确保最佳性能。When fetching a large number of records, tuning this parameter may be required to ensure optimal performances.
    默认字符串列长度、二进制列长度、十进制列小数位数Default string column length, Binary column length, Decimal column scale 数据类型长度和精度可能会影响返回数据的方式。The data type lengths and precisions may affect how data is returned. 由于精度损失和/或截断,可能会返回不正确的信息。They cause incorrect information to be returned due to loss of precision and/or truncation.

    高级 DSN 配置选项Advanced DSN configuration options

  6. 选择“测试”以测试数据源 。Select Test to test the data source. 如果正确配置了数据源,测试结果会显示“成功!” 。When the data source is configured correctly, the test result shows SUCCESS!.

  7. 选择“确定”以关闭“测试”窗口 。Select OK to close the Test window.

  8. 选择“确定”以关闭“Microsoft Hive ODBC 驱动程序 DSN 设置”窗口 。Select OK to close the Microsoft Hive ODBC Driver DSN Setup window.

  9. 选择“确定”以关闭“ODBC 数据源管理器”窗口 。Select OK to close the ODBC Data Source Administrator window.

将 HDInsight 中的数据导入到 Excel 中Import data into Excel from HDInsight

下列步骤介绍如何使用在前面部分中创建的 ODBC 数据源将数据从 Hive 表导入到 Excel 工作簿。The following steps describe the way to import data from a Hive table into an Excel workbook using the ODBC data source that you created in the previous section.

  1. 在 Excel 中打开新工作簿或现有工作簿。Open a new or existing workbook in Excel.

  2. 在“数据”选项卡中,导航到“获取数据” > “从其他源” > “从 ODBC”来启动“从 ODBC”窗口 。From the Data tab, navigate to Get Data > From Other Sources > From ODBC to launch the From ODBC window.

    打开 Excel 数据连接向导Open Excel data connection wizard

  3. 在下拉列表中,选择在上一部分中创建的数据源名称,然后选择“确定” 。From the drop-down list select the data source name that you created in the last section and then select OK.

  4. 第一次使用时,将打开“ODBC 驱动程序” 对话框。For the first use, an ODBC driver dialog will open. 从左侧菜单中选择 WindowsSelect Windows from the left menu. 然后选择“连接” 以打开“导航器” 窗口。Then select Connect to open the Navigator window.

  5. 在“导航器”中,导航到“HIVE” > “默认” > “hivesampletable”,然后选择“加载” 。From Navigator, navigate to HIVE > default > hivesampletable, and then select Load. 需要一段时间才能将数据导入到 Excel 中。It takes a few moments before data gets imported to Excel.

    HDInsight Excel Hive ODBC 导航器HDInsight Excel Hive ODBC navigator

后续步骤Next steps

本文已介绍如何使用 Microsoft Hive ODBC 驱动程序将来自 HDInsight 服务的数据检索到 Excel 中。In this article, you learned how to use the Microsoft Hive ODBC driver to retrieve data from the HDInsight Service into Excel. 同样地,也可以将来自 HDInsight 服务的数据检索到 SQL 数据库中。Similarly, you can retrieve data from the HDInsight Service into SQL Database. 也可以将数据上传到 HDInsight 服务中。It is also possible to upload data into an HDInsight Service. 若要了解更多信息,请参阅以下文章:To learn more, see: