某些 Azure HDInsight 5.1 群集版本包含一个问题,即临时 OpenSSL 相关目录在 /tmp/tmp-*openssl 下累积。 系统不会按预期自动清理这些目录。 随着时间的推移,这会导致头节点上的磁盘使用率峰值达到 100%,从而导致群集不稳定和头节点无响应。
症状
- 头节点变得无法访问或速度缓慢。
- 由于磁盘空间不足,YARN/DFS操作失败。
- 运行状况探测报告头节点运行不正常。
- 日志显示设备错误上没有留下任何空间。
- 由于 /tmp 空间已满,SSH 会话可能会失败或命令卡住。
影响
影响 HDInsight 群集,如下所示:
- 导致 /tmp 达到 100% 利用率。
- 头节点进入无响应/不正常状态。
- 可能会影响作业提交、Ambari 访问和基本的 HDInsight 控制平面操作。
根源
最新 HDInsight 5.1 版本中的回归引入了一个问题,即在 /tmp/tmp-*openssl 中创建的 OpenSSL 临时目录不会按预期自动清理。
建议的步骤
若要解决此问题,请在头节点上运行以下脚本作
https://hdiconfigactions.blob.core.windows.net/openssl-patch/openssltmpclean.sh
重要
代码路径中包含的自动清理不会按预期执行。 在发布修补的 HDInsight 映像之前,建议并支持使用基于 cron 的清理措施。