Azure HDInsight 头节点由于磁盘使用问题而进入无响应状态

某些 Azure HDInsight 5.1 群集版本包含一个问题,即临时 OpenSSL 相关目录在 /tmp/tmp-*openssl 下累积。 系统不会按预期自动清理这些目录。 随着时间的推移,这会导致头节点上的磁盘使用率峰值达到 100%,从而导致群集不稳定和头节点无响应。

症状

  • 头节点变得无法访问或速度缓慢。
  • 由于磁盘空间不足,YARN/DFS操作失败。
  • 运行状况探测报告头节点运行不正常。
  • 日志显示设备错误上没有留下任何空间。
  • 由于 /tmp 空间已满,SSH 会话可能会失败或命令卡住。

影响

影响 HDInsight 群集,如下所示:

  • 导致 /tmp 达到 100% 利用率。
  • 头节点进入无响应/不正常状态。
  • 可能会影响作业提交、Ambari 访问和基本的 HDInsight 控制平面操作。

根源

最新 HDInsight 5.1 版本中的回归引入了一个问题,即在 /tmp/tmp-*openssl 中创建的 OpenSSL 临时目录不会按预期自动清理。

若要解决此问题,请在头节点上运行以下脚本作

https://hdiconfigactions.blob.core.windows.net/openssl-patch/openssltmpclean.sh

重要

代码路径中包含的自动清理不会按预期执行。 在发布修补的 HDInsight 映像之前,建议并支持使用基于 cron 的清理措施。

资源