使用 Power Query 将 Excel 连接到 Apache Hadoop

Azure 大数据解决方案的一个关键功能是,将 Azure 商业智能 (BI) 组件与 Azure HDInsight 中的 Apache Hadoop 群集相集成。 一个主要示例是能够使用 Azure Power Query for Excel 加载项将 Excel 连接到包含与 Hadoop 群集关联的数据的 Azure 存储帐户。 本文逐步说明如何设置和使用 Power Query 来查询与 HDInsight 管理的 Hadoop 群集关联的数据。

先决条件

  • HDInsight 中的 Apache Hadoop 群集。 请参阅 Linux 上的 HDInsight 入门
  • 运行 Windows 10、Windows 7、Windows Server 2008 R2 或更高版本操作系统的工作站。
  • Microsoft 365 企业应用版、Office 2016、Office 专业增强版 2013、Excel 2013 Standalone 或 Office 专业增强版 2010。

安装 Azure Power Query

Power Query 可以导入已输出的数据,或者导入已由在 HDInsight 群集上运行的 Hadoop 作业生成的数据。

在 Excel 2016 中,Power Query 已集成到“获取并转换”部分下的“数据”功能区。 对于较旧的 Excel 版本,请从 [Microsoft 下载中心][powerquery-download] 下载 Microsoft Power Query for Excel 并进行安装。

将 HDInsight 数据导入 Excel

使用用于 Excel 的 Power Query 外接程序,可以轻松地将 HDInsight 群集中的数据导入到 Excel 中,并可以在 Excel 中使用 PowerPivot 和 Power Map 之类的 BI 工具对数据进行检查、分析和显示。

  1. 启动 Excel。

  2. 创建一个新的空白工作簿。

  3. 基于 Excel 版本,执行以下步骤:

    • Excel 2016

      • 选择 >“数据”>“获取数据”>“从 Azure”>“从 Azure HDInsight(HDFS)”。

        HDI.PowerQuery.SelectHdiSource.2016

    • Excel 2013/2010

      • 选择“Power Query”>“从 Azure”>“从 Azure HDInsight”。

        HDI.PowerQuery.SelectHdiSource

        注意: 如果未看到“Power Query”菜单,请转到“文件”>“选项”>“加载项”,从页面底部的下拉“管理”框中选择“COM 加载项” 。 。

        注意: Power Query 还允许通过选择“来自其他源”从 HDFS 中导入数据 。

  4. 在“Azure HDInsight(HDFS)” 对话框的“帐户名称或 URL” 文本框中,输入与群集关联的 Azure Blob 存储帐户的名称。 然后选择“确定”。 此帐户可以是默认存储帐户或链接的存储帐户。 格式为 https://StorageAccountName.blob.core.chinacloudapi.cn/

  5. 对于“帐户密钥”,请输入 Blob 存储帐户的密钥,然后选择“连接” 。 (只需要在首次访问此存储时输入帐户信息。)

  6. 在“查询编辑器”左侧的“导航器”窗格中,双击与群集关联的 Blob 存储容器名称 。 默认情况下,该容器名称与群集名称相同。

  7. 在“名称”列中找到“HiveSampleData.txt”(文件夹路径是“../hive/warehouse/hivesampletable/”),然后选择 HiveSampleData.txt 左侧的“二进制” 。 HiveSampleData.txt 随所有群集提供。 (可选)可使用自己的文件。

    HDI Excel power query import data

  8. 可根据需要重命名列名称。 准备就绪后,选择“关闭并加载”。 数据已加载到工作簿:

    HDI Excel power query imported table

后续步骤

在本文中,已了解如何使用 Power Query 将数据从 HDInsight 检索到 Excel 中。 同样地,也可以将来自 HDInsight 的数据检索到 Azure SQL 数据库中。 也可以将数据上传到 HDInsight 中。 要了解更多信息,请参阅下列文章: