场景:Azure HDInsight 群集中出现“监视器 BUG 软锁定 CPU”错误

本文介绍在与 Azure HDInsight 群集交互时出现的问题的故障排除步骤和可能的解决方案。

问题

内核 syslog 包含错误消息:watchdog: BUG: soft lockup - CPU

原因

Linux 内核中的一个 bug 导致 CPU 软锁定。

解决方法

应用内核修补程序。 以下脚本将升级 Linux 内核,并在 24 小时内的不同时间重新启动计算机。 在两个批处理文件中执行脚本操作。 第一个批处理文件在除头节点以外的所有节点上运行。 第二个批处理文件在头节点上运行。 不要同时在头节点和其他节点上运行。

  1. 从 Azure 门户导航到你的 HDInsight 群集。

  2. 转到“脚本操作”。

  3. 选择“提交新项”并按如下所示提供输入

    属性 Value
    脚本类型 -Custom
    名称 内核软锁定问题的修复
    Bash 脚本 URI https://raw.githubusercontent.com/hdinsight/hdinsight.github.io/master/ClusterCRUD/KernelSoftLockFix/scripts/KernelSoftLockIssue_FixAndReboot.sh
    节点类型 Worker、Zookeeper
    参数 不适用

    若要在添加新节点时执行脚本,请选择“保留此脚本操作...”。

  4. 选择“创建” 。

  5. 等待执行成功。

  6. 按照与步骤 3 相同的步骤在“头节点”上执行脚本操作,但这一次需使用节点类型:头节点

  7. 等待执行成功。

后续步骤

如果你的问题未在本文中列出,或者无法解决问题,请访问以下渠道之一获取更多支持:

  • 如果需要更多帮助,可以从 Azure 门户提交支持请求。 从菜单栏中选择“支持” ,或打开“帮助 + 支持” 中心。