为 Azure HPC 配置成本会计和预算跟踪

高性能计算迁移的一个关键方面是会计系统的配置。 会计组件可确保高效的资源利用率、成本管理和合规性。 本指南的这一部分介绍了与会计系统相关的需求、工具、服务和最佳做法。

Slurm 会计是一种功能强大的工具,可帮助管理员监视和报告作业和资源使用情况,从而深入了解工作负载性能和用户活动。

定义会计需求

  • 资源使用状况跟踪:

    • 为了确保有效利用率,应监视计算节点使用情况、作业执行时间和资源分配。
    • 跟踪用户和组活动,以了解工作负载模式和资源需求。
  • 成本管理:

    • 通过跟踪资源消耗来实施管理和优化成本的策略。
    • 根据资源使用状况,使用会计系统数据将成本分配给不同的部门、项目或用户。
  • 合规性和报告:

    • 生成有关资源使用状况的详细报告,以便符合组织策略和外部法规。
    • 保留作业执行和资源消耗的历史记录,以便进行审核和分析。

工具和服务

Slurm 会计:

  • 使用 Slurm 会计跟踪和管理 HPC 环境中的作业和资源使用状况。
  • 若要收集和存储会计系统数据,请使用必要的设置配置 Slurm 会计。
  • 生成报告并分析会计系统数据,以优化资源利用率和成本管理。

最佳做法

  • 准确的数据收集:

    • 确保正确配置 Slurm 会计,以收集有关作业和资源使用状况的综合数据。
    • 为了维护可靠的记录,应定期验证会计系统数据的准确性和完整性。
  • 有效的成本管理:

    • 使用会计系统数据来确定节省成本的机会,例如优化作业计划和资源分配。
    • 实施退款策略,根据实际资源使用状况将成本分配给部门或项目。
  • 合规性和审核:

    • 生成定期报告,以遵守组织策略和外部法规。
    • 为了确保问责制和透明度,请保留历史记录并定期进行审核。
  • 数据分析和报告:

    • 使用会计系统数据分析工作负载性能并确定资源使用状况的趋势。
    • 生成自定义报告,为利益干系人提供见解并支持决策制定。

Slurm 会计命令示例

查询作业会计数据:

#!/bin/bash

# Query job accounting data for a specific user and time period
sacct -S 2023-01-01 -E 2023-01-31 -u john_doe -o JobID,JobName,Account,User,State,Elapsed,TotalCPU

资源

  • 使用 Azure CycleCloud 和 Azure Database for MySQL 灵活服务器设置 Slurm 作业会计:博客文章

  • Slurm 会计:外部