使用 Azure 门户管理 HDInsight 中的 Apache Hadoop 群集
使用 Azure门户,可以管理 Azure HDInsight 中的 Apache Hadoop 群集。 使用选项卡选择器还可以了解如何使用其他工具在 HDInsight 中管理 Hadoop 群集。
先决条件
HDInsight 中的现有 Apache Hadoop 群集。 请参阅使用 Azure 门户在 HDInsight 中创建基于 Linux 的群集。
入门
列出并显示群集
“HDInsight 群集”页会列出现有的群集。 在门户中:
- 在左侧菜单中,选择“所有服务”。
- 在“ANALYTICS”下,选择“HDInsight 群集”。
群集主页
从“HDInsight 群集”页选择群集名称。 此时会打开“概览”视图,该视图类似于下图:
顶部菜单:
项目 | 说明 |
---|---|
移动 | 将群集移至其他资源组或其他订阅。 |
Delete | 删除群集。 |
刷新 | 刷新视图。 |
Left menu:
顶部左侧菜单
项目 说明 概述 提供群集的常规信息。 活动日志 显示和查询活动日志。 访问控制 (IAM) 使用角色分配。 请参阅分配 Azure 角色以管理对 Azure 订阅资源的访问。 Tags 可让用户设置键/值对,以定义云服务的自定义分类。 例如,用户可以创建名为 project的键,并对与特定项目关联的所有服务使用一个公用值。 诊断并解决问题 显示故障排除信息。 快速入门 显示可帮助你开始使用 HDInsight 的信息。 工具 HDInsight 相关工具的帮助信息。 “设置”菜单
项目 说明 群集大小 检查、增加和减少群集辅助角色节点的数量。 请参阅缩放群集。 配额限制 显示订阅的已用核心数和可用核心数。 SSH + 群集登录 显示使用安全 Shell (SSH) 连接与群集建立连接的说明。 有关详细信息,请参阅 将 SSH 与 HDInsight 配合使用。 存储帐户 查看存储帐户和密钥。 存储帐户是在群集创建过程中进行配置。 应用程序 添加/删除 HDInsight 应用程序。 请参阅安装自定义 HDInsight 应用程序。 脚本操作 在群集上运行 Bash 脚本。 请参阅使用脚本操作自定义基于 Linux 的 HDInsight 群集。 外部元存储 查看 Apache Hive 和 Apache Oozie 元存储。 只能在群集创建过程中配置元存储。 HDInsight 合作伙伴 添加/删除当前 HDInsight 合作伙伴。 属性 查看群集属性。 锁 添加锁防止群集遭到修改或删除。 导出模板 显示和导出群集的 Azure 资源管理器模板。 目前,只能导出相关的 Azure 存储帐户。 请参阅使用 Azure 资源管理器模板在 HDInsight 中创建基于 Linux 的 Apache Hadoop 群集。 监视菜单
项目 说明 警报 管理警报和操作。 指标 监视 Azure Monitor 日志中的群集指标。 诊断设置 存储诊断指标的位置设置。 Azure Monitor 在 Azure Monitor 中监视群集。 支持 + 故障排除菜单
项目 说明 资源运行状况 参阅 Azure 资源运行状况概述。 新建支持请求 允许用户通过 Azure 支持创建支持票证。
群集属性
在群集主页的“设置”下,选择“属性”。
项 | 说明 |
---|---|
HOSTNAME | 群集名称。 |
CLUSTER URL | Ambari Web 界面的 URL。 |
专用终结点 | 群集的专用终结点。 |
安全外壳 (SSH) | 用于通过 SSH 访问群集的用户名和主机名。 |
状态 | 下列其中一项:Aborted、Accepted、ClusterStorageProvisioned、AzureVMConfiguration、HDInsightConfiguration、Operational、Running、Error、Deleting、Deleted、Timeout、DeleteQueued、DeleteTimeout、DeleteError、PatchQueued、CertRolloverQueued、ResizeQueued 或 ClusterCustomization。 |
REGION | Azure 位置。 有关受支持的 Azure 位置的列表,请参阅 HDInsight 定价中的“区域”下拉列表框。 |
创建日期 | 部署群集的日期。 |
操作系统 | “Windows”或“Linux”。 |
TYPE | Hadoop、HBase、Spark。 |
版本 | 请参阅 HDInsight 版本。 |
最低 TLS 版本 | TLS 版本。 |
订阅 | 订阅名称。 |
默认数据源 | 默认的群集文件系统。 |
工作器节点大小 | 工作节点的所选 VM 大小。 |
头节点大小 | 头节点的所选 VM 大小。 |
虚拟网络 | 群集将要部署到的虚拟网络的名称(如果在部署时已选择)。 |
移动群集
可以将 HDInsight 群集移到另一个 Azure 资源组或另一个订阅。
在群集主页中执行以下操作:
- 在顶部菜单中选择“移动”。
- 选择“移动到另一资源组”或“移动到另一订阅”。
- 按新页面中的说明操作。
删除群集
删除群集不会删除默认存储帐户或任何链接的存储帐户。 可以使用相同的存储帐户和相同的元存储来重新创建群集。 建议在重新创建群集时使用新的默认 Blob 容器。
在群集主页中执行以下操作:
- 从顶部菜单中选择“删除”。
- 按新页面中的说明操作。
另请参阅暂停/关闭群集。
添加其他存储帐户
创建群集后,可以添加其他 Azure 存储帐户和 Azure Data Lake Storage 帐户。 有关详细信息,请参阅将其他存储帐户添加到 HDInsight。
缩放群集
使用群集缩放功能可更改 Azure HDInsight 群集使用的辅助角色节点数,而无需重新创建群集。
有关完整信息,请参阅缩放 HDInsight 群集。
暂停/关闭群集
大多数 Hadoop 作业只是偶尔运行的批处理作业。 大多数 Hadoop 群集都存在长时间不进行处理的情况。 有了 HDInsight,便可以将数据存储在 Azure 存储中,因此可以在群集不用时安全地删除群集。 此外,还需要为 HDInsight 群集付费,即使不用也是如此。 由于群集费用数倍于存储空间费用,因此在群集不用时删除群集可以节省费用。
可以通过许多方式对此过程进行程序性处理:
- 用户 Azure 数据工厂。 有关创建按需 HDInsight 链接服务的信息,请参阅在 HDInsight 中使用 Azure 数据工厂创建基于 Linux 的按需 Apache Hadoop 群集。
- 使用 Azure PowerShell。 请参阅分析航班延误数据。
- 使用 Azure CLI。 请参阅使用 Azure CLI 管理 Azure HDInsight 群集。
- 使用 HDInsight .NET SDK。 请参阅提交 Apache Hadoop 作业。
有关定价信息,请参阅 HDInsight 定价。 要从门户中删除群集,请参阅 删除群集
升级群集
打开 Apache Ambari Web UI
Ambari 提供由其 RESTful API 提供支持的直观、易用的 Hadoop 管理 Web UI。 Ambari 使系统管理员能够管理和监视 Hadoop 群集。
在群集主页中执行以下操作:
选择“群集仪表板”。
从新页面中选择“Ambari 主页”。
输入群集用户名和密码。 默认群集用户名为“admin”。
有关详细信息,请参阅使用 Apache Ambari Web UI 管理 HDInsight 群集。
更改密码
HDInsight 群集可以有两个用户帐户。 HDInsight 群集用户帐户(HTTP 用户帐户)和 SSH 用户帐户是在创建过程中创建的。 可以使用门户更改群集用户帐户密码,使用脚本操作更改 SSH 用户帐户。
更改群集用户密码
注意
更改群集用户 (admin) 的密码可能会导致针对此群集运行的脚本操作失败。 如果有任何持久性脚本操作以工作节点为目标,则通过重设大小操作在群集中添加节点时,这些脚本可能会失败。 有关脚本操作的详细信息,请参阅使用脚本操作自定义 HDInsight 群集。
在群集主页中执行以下操作:
- 在“设置”下选择“SSH + 群集登录”。
- 选择“重置凭据”。
- 在文本框中输入并确认新密码。
- 选择“确定” 。
将在群集中的所有节点上更改密码。
更改 SSH 用户密码或公钥
使用文本编辑器将以下文本保存到名为 changecredentials.sh 的文件中。
重要
所用的编辑器必须使用 LF 作为行尾。 如果编辑器使用 CRLF,则脚本将无法正常工作。
#! /bin/bash USER=$1 PASS=$2 usermod --password $(echo $PASS | openssl passwd -1 -stdin) $USER
将该文件上传到可以使用 HTTP 或 HTTPS 地址从 HDInsight 访问的存储位置。 例如,某个公共文件存储(如 OneDrive 或 Azure Blob 存储)。 将 URI(HTTP 或 HTTPS 地址)保存到文件中,因为下一步需要用到此 URI。
在群集主页的“设置”下,选择“脚本操作”。
在“脚本操作”页中,选择“提交新项”。
在“提交脚本操作”页中,输入以下信息:
注意
SSH 密码不能包含下列字符:
" ' ` / \ < % ~ | $ & ! #
字段 | Value |
---|---|
脚本类型 | 从下拉列表中选择“- 自定义”。 |
名称 | “更改 SSH 凭据” |
Bash 脚本 URI | changecredentials.sh 文件的 URI |
节点类型:(头节点、辅助角色节点、Nimbus 节点、监督器节点或 Zookeeper 节点。) | ✓ 适用于所有列出的节点类型 |
parameters | 输入 SSH 用户名和新密码。 用户名与密码之间应有一个空格。 |
保留此脚本操作... | 让此字段保留未选中状态。 |
- 选择“创建”以应用脚本。 脚本完成后,可以使用新凭据通过 SSH 连接到群集。
查找订阅 ID
每个群集都绑定到一个 Azure 订阅。 Azure 订阅 ID 在群集主页中可见。
查找资源组
在 Azure Resource Manager 模式下,每个 HDInsight 群集都是使用 Azure Resource Manager 组创建的。 资源管理器组在群集主页中可见。
查找存储帐户
HDInsight 群集使用 Azure 存储帐户或 Azure Data Lake Storage 来存储数据。 每个 HDInsight 群集都可拥有一个默认存储帐户和多个链接的存储帐户。 若要列出存储帐户,请在群集主页的“设置”下选择“存储帐户”。
监视作业
请参阅使用 Apache Ambari Web UI 管理 HDInsight 群集。
群集大小
群集主页中的“群集大小”磁贴显示分配给此群集的核心数以及如何为此群集中的节点分配核心。
重要
若要监视 HDInsight 群集提供的服务,必须使用 Ambari Web 或 Ambari REST API。 有关如何使用 Ambari 的详细信息,请参阅使用 Apache Ambari 管理 HDInsight 群集
连接到群集
后续步骤
本文介绍了一些基本管理功能。 要了解更多信息,请参阅下列文章: