通过调整大小或关闭未充分利用的实例来优化虚拟机 (VM) 或虚拟机规模集 (VMSS) 支出

虽然某些应用程序方案有意使虚拟机利用率较低,但通过管理虚拟机或虚拟机规模集的大小和数量通常可降低成本。

顾问使用机器学习算法来识别低利用率的情况并确定最合适的建议,以确保虚拟机和虚拟机规模集得到最优利用。 建议的操作是关闭或调整大小,这取决于所评估的资源。

关闭建议

Azure 顾问会标识过去 7 天内从未使用过的资源,并建议将它们关闭。

  • 建议条件包括“CPU”和“出站网络利用率”指标。 由于我们发现 CPU 和出站网络利用率足够,所以不考虑内存。

  • 分析了过去 7 天的利用率数据。 可以在配置中更改回溯期。 可用的回溯期为 7、14、21、30、60 和 90 天。 更改回溯期后,可能需要长达 48 小时才能更新建议。

  • 每 30 秒对指标采样一次,聚合 1 分钟内的指标,然后再聚合 30 分钟内的指标(聚合 30 分钟内的指标时,取平均值的最大值)。 在虚拟机规模集上,将使用不同实例的指标平均值聚合各个虚拟机的指标。

  • 在以下情况下将创建关闭建议:

    • 所有核心的CPU利用率总和的最大值 P95 小于 3%
    • 过去 3 天内平均 CPU 的 P100(所有内核的总和)<= 2%
    • 7 天内的出站网络利用率小于 2%

调整 SKU 建议的大小

顾问建议在可能的情况下调整虚拟机的大小,以适应更合适的 SKU 上的当前负载,这样成本更低(基于零售价格)。 在虚拟机规模集上,顾问建议在可能的情况下调整大小,以适应更合适且更便宜的 SKU 或者相同 SKU 的更少实例上的当前负载。

  • 建议条件包括“CPU”、“内存”和“出站网络利用率”

  • 分析了过去 7 天的利用率数据。 可以在配置中更改回溯期。 可用的回溯期为 7、14、21、30、60 和 90 天。 更改回溯期后,可能需要长达 48 小时才能更新建议。

  • 每 30 秒对指标采样一次,聚合 1 分钟内的指标,然后再聚合 30 分钟内的指标(聚合 30 分钟内的指标时,取平均值的最大值)。 在虚拟机规模集中,对各个虚拟机的指标进行聚合:对于实例计数建议,采用指标的平均值进行聚合;对于 SKU 更改建议,采用最大值进行聚合。

  • 根据以下标准确定合适的 SKU(用于虚拟机)或实例数量(用于虚拟机规模集资源):

    • 新 SKU 上的工作负载性能不会受到影响。
      • 面向用户的工作负载的目标:
        • 在推荐的 SKU 上,CPU 和出站网络利用率的第95百分位数不超过百分之40。
        • 推荐 SKU 上内存利用率的 P100 为 60% 或更低。
      • 非面向用户的工作负载的目标:
        • 在新的 SKU 上,CPU 和出站网络利用率的 P95 不超过 80%。
        • 新 SKU 上内存利用率的第100百分位数不高于 80%
    • 新的 SKU(如果适用)具有相同的加速网络和Premium Storage功能
    • 建议的新 SKU(如果适用)在虚拟机的当前区域受支持
    • 新的 SKU(如果适用的话)价格更低。
    • 实例计数建议还会考虑虚拟机规模集是由 Service Fabric 还是 AKS 管理。 对于 Service Fabric 托管资源,建议考虑到了可靠性和耐久性等级。
  • 顾问通过分析工作负载的 CPU 使用率特征来确定工作负载是否面向用户。 该方法基于 Microsoft Research 的发现。 你可在此处找到更多详细信息:云平台中基于预测的功率过度订阅 - Microsoft Research

  • 根据最适合、成本最低且无性能影响的原则,顾问不仅建议使用同一系列中较小的 SKU(例如 D3v2 到 D2v2),还建议使用较新版本(例如 D3v2 到 D2v3)或不同系列中的 SKU(例如 D3v2 到 E3v2)。

  • 对于虚拟机规模集资源,顾问将实例计数建议优先于 SKU 更改建议,因为实例计数更改很容易执行,从而可以更快地节省成本。

可弹性资源建议

我们评估工作负载是否适合在称为“可突发 SKU”的专用 SKU 上运行,这些 SKU 支持可变工作负载性能要求,并且比常规用途 SKU 便宜。 在此处了解有关弹性 SKU 的详细信息:B 系列弹性 - Azure 虚拟机

在下述条件下,建议使用可突发 SKU:

  • 平均 CPU 利用率低于可突发 SKU 的基线性能
    • 如果 CPU 的 P95 低于可突发 SKU 基线性能的两倍
    • 如果当前 SKU 未启用加速网络,则是因为可突发型 SKU 尚不支持加速网络。
    • 如果确定可突发 SKU 额度足以支持 7 天内的平均 CPU 利用率。 可以在配置中更改回溯期。

生成的建议指出用户应将其当前虚拟机或虚拟机规模集调整为具有相同核心数的可突发 SKU。 提出此建议是为了让用户可以利用低成本和工作负载平均利用率低但在某些情况下峰值高这样的优势,这非常适合使用 B 系列 SKU。

顾问会显示与建议的操作(重设大小或关机)相对应的成本节省估算值。 对于调整大小,顾问提供当前和目标 SKU/实例计数信息。 若要更有选择性地对未充分利用的虚拟机或虚拟机规模集执行操作,可以按订阅调整 CPU 利用率规则。

在某些情况下,建议无法采用或可能不适用,例如一些常见的场景(可能还有其他情况):

  • 预配的虚拟机或虚拟机规模集可以适应将来的流量

  • 虚拟机或虚拟机规模集使用了调整大小算法未考虑的其他资源,例如 CPU、内存和网络以外的指标

  • 在当前 SKU 上进行特定测试,即使测试未被有效利用

  • 需要确保虚拟机或虚拟机规模集的 SKU 保持一致性

  • 用于灾难恢复目的的虚拟机或虚拟机规模集

在这种情况下,只需使用与建议关联的“消除/推迟”选项。

限制

  • 与建议相关的节省基于零售费率,不考虑可能适用于你的帐户的任何临时或长期折扣。 因此,列出的节省可能高于实际情况。

  • 建议不考虑预留实例 (RI)/节省计划购买的存在。 因此,列出的节省可能高于实际情况。 在某些情况下,例如在跨系列推荐的情况下,根据已购买预留实例的 SKU 类型,当遵循优化建议时,成本可能会增加。 我们提醒你根据合适规模建议采取行动时,要考虑你的 RI/节省计划购买。

我们一直在努力改进这些建议。 欢迎随时在顾问论坛上分享反馈。

配置 VM/VMSS 建议

可以调整顾问虚拟机(VM)和虚拟机规模集的建议。 具体而言,可以为每个订阅设置一个筛选器,以便仅显示针对具有特定 CPU 使用率的计算机的建议。 此设置将筛选建议,但不会更改其生成方式。

注意

如果没有所需的权限,则会在用户界面中禁用该选项。 有关权限的信息,请参阅 Azure Advisor 中的 Permissions。

若要调整 Advisor VM/Virtual Machine Scale Sets 的调整大小规则,请执行以下步骤:

  1. 在任何Azure Advisor页中,单击左侧导航窗格中的 Configuration。 此时会打开“顾问配置”页,其中默认选择了“资源”选项卡。

  2. 选择VM/Virtual Machine Scale Sets 调整到正确大小的选项卡

  3. 选择要为平均 CPU 使用率设置筛选器的订阅,然后单击“ 编辑”。

  4. 选择所需的平均 CPU 使用率值,然后单击“应用”。 新设置最长可能需要 24 小时才能反映在建议中。

 Azure 顾问 (Azure Advisor) 配置选项的虚拟机/虚拟机规模集大小调整规则的截图。

后续步骤

若要了解有关顾问建议的详细信息,请参阅以下资源: