管理异常

本文可帮助你了解 FinOps Framework 中的异常功能，以及如何在 Microsoft Cloud 中实现该功能。

定义

管理异常是指及时检测和解决异常或意外的成本和使用模式的做法。

使用自动化工具检测异常并通知利益干系人。定期查看使用趋势，以揭示自动化工具可能遗漏的异常。

调查应用程序行为、资源利用率和资源配置的变更，以发现异常的根本原因。

通过系统性的异常情况检测、分析和解决方法，组织可以最大程度地减少影响预算和业务运营的意外成本。而且，他们甚至可以发现和预防成本数据中可能显现的安全性和可靠性事件。

刚开始在云中管理成本时，你会使用门户中提供的本机工具。

从主动警报开始。
- 订阅环境中每个订阅的异常警报，以在基于历史使用情况的规范化使用情况中检测到异常峰值或下降时接收电子邮件警报。
- 请考虑订阅计划性警报，与利益干系人共享最近成本趋势的图表。它可以帮助你在成本随时间变化时提高意识，并有可能捕捉到异常模型可能遗漏的变更。
- 请考虑在成本管理中创建预算，以跟踪该特定范围或工作负载。指定筛选器，并为实际成本和预测成本设置警报，以进行精细化的针对性操作。
使用详细的成本明细、使用情况分析和可视化效果定期审查成本，以确定可能遗漏的潜在异常。
- 使用成本分析中的智能视图查看为每个订阅自动检测到的异常见解。
- 使用成本分析中的可自定义视图手动查找意外变更。
- 请考虑保存显示特定工作负载随时间的成本变化的自定义视图，以节省时间。
- 请考虑使用 Power BI 创建更详细的使用情况报告。
识别异常后，采取适当的操作来解决它。
- 与管理相关云资源的工程师一起查看异常详细信息。一些自动检测到的“异常”是计划内的或至少是已知的资源配置更改，属于生成和管理云服务的一部分。
- 如果需要较低级别的使用情况详细信息，请在 Azure Monitor 指标中查看资源利用率。

在这时，你已配置了自动警报，在理想情况下，你也保存了视图和报表以简化定期检查。

建立并自动执行 KPI，例如：
- 每月或每季度的异常数。
- 每月或每季度异常的总成本影响
- 检测和解决异常的响应时间。
- 假正数和假负数。
扩大异常情况检测和响应过程的覆盖范围，以包含所有成本。
定义、记录和自动化工作流，以在检测到异常时指导响应过程。
培养持续学习、创新和协作的文化。
- 根据反馈、行业最佳做法和新兴技术定期评审和优化异常管理流程。
- 促进知识共享和跨职能协作，以推动异常情况检测和响应功能的持续改进。