将 Hive 与基于 Windows 的 HDInsight 配合使用以分析来自网站的日志
了解如何通过将 HiveQL 与 HDInsight 配合使用来分析来自网站的日志。 网站日志分析可用于根据类似活动分类受众,按人口统计分类站点访问者,以及了解他们查看的内容和这些内容来自的网站等。
Important
本文档中的步骤仅适用于基于 Windows 的 HDInsight 群集。 低于 HDInsight 3.4 的 HDInsight 版本仅在 Windows 上提供。 Linux 是在 HDInsight 3.4 版或更高版本上使用的唯一操作系统。 有关详细信息,请参阅 HDInsight 在 Windows 上停用。
在此示例中,使用 HDInsight 群集来分析网站日志文件,以深入了解每天从外部网站访问网站的频率。 还将生成用户遇到的网站错误的摘要。 你将学习如何执行以下操作:
- 连接到 Azure Blob 存储,其中包含网站日志文件。
- 创建 HIVE 表以查询这些日志。
- 创建 HIVE 查询以分析数据。
- 使用 Microsoft Excel 连接到 HDInsight(通过使用开放式数据库连接 (ODBC)),检索分析的数据。
先决条件
- 必须已在 Azure HDInsight 上预配 Hadoop 群集。 有关说明,请参阅预配 HDInsight 群集。
- 必须已安装 Microsoft Excel 2013 或 Excel 2010。
- 必须拥有 Microsoft Hive ODBC 驱动程序 ,才能将数据从 Hive 导入 Excel。
运行示例
- 从 Azure 门户的启动板(如果在此处固定群集)中,单击要在其上运行示例的群集磁贴。
在群集边栏选项卡中的“快速链接”下单击“群集仪表板”,然后在“群集仪表板”边栏选项卡中单击“HDInsight 群集仪表板”。 或者,也可以直接使用以下 URL 打开仪表板:
https://<clustername>.azurehdinsight.cn
出现提示时,通过使用设置群集时所用的管理员用户名和密码进行身份验证。
- 在打开的网页中,单击“入门库”选项卡,然后在“使用示例数据的解决方案”类别下方,单击“网站日志分析”示例。
- 按照网页上提供的说明完成该示例。
后续步骤
尝试以下示例:通过将 Hive 与 HDInsight 配合使用分析传感器数据。