通过监视和分析实现复原能力

监视可以最大程度地提高应用程序和服务的可用性和性能。 它提供了一个全面的解决方案,用于从你的基础结构和应用程序收集、分析和处理遥测数据。 当发现你的服务或应用程序出现问题时,警报会通知你。 你可以在服务的最终用户注意到问题之前确定并解决这些问题。 Microsoft Entra ID Log Analytics 可帮助你分析、搜索审核日志和登录日志以及生成自定义视图。

通过警报进行监视并获得通知

监视你的系统和基础结构有助于确保服务的总体运行状况。 它从业务指标的定义开始,这些指标包括新用户到达、最终用户的身份验证率和转换率,等等。 请配置要监视的此类指标。 如果为即将到来的流量激增(由于促销或假日流量)进行规划,请针对该活动修改你的估计值,并针对业务指标修改相应的基准。 在活动结束后,恢复为以前的基准。

同样,若要检测故障或性能中断,请设置良好的基线,然后定义警报。 及时响应新出现的问题。

实施监视和警报

  • 监视:使用 Azure Monitor 依据关键服务级别目标 (SLO) 持续监视运行状况。 发生严重更改时,获取通知。 确定 Azure AD B2C 策略或某个应用程序是你的业务的关键组件(需要监视其运行状况以维护 SLO)。 确定符合 SLO 的关键指标。 例如,请跟踪以下指标,因为其突然下降会导致业务损失。

    • 请求总数:发送到 Azure AD B2C 策略的请求总数“n”。

    • 成功率(%):成功的请求数/请求总数。

    访问 application insights 中的关键指标,其中存储了 Azure AD B2C 基于策略的日志、审核日志和登录日志。

    • 可视化效果:使用 Log analytics 构建面板来直观地监视关键指标。

    • 当前周期:创建时态图表以显示请求总数和成功率 (%) 在当前期间(例如本周)的变化。

    • 上个周期:创建时态图表以显示请求总数和成功率 (%) 在以前的某个期间的变化。

  • 警报:使用 Log Analytics 定义当关键指标突然发生变化时会触发的警报。 这些更改可能会对 SLO 产生负面影响。 警报使用各种形式的通知方法,包括电子邮件、短信和 Webhook。 将条件定义为警报触发器的阈值。 例如:

    • 针对请求总数突然下降的警报:当请求总数突然下降时触发警报。 例如,当请求数与上一期间相比下降了 25% 时,引发警报。
    • 成功率显著下降的警报:当所选策略的成功率下降时触发警报。
    • 收到警报后,请使用 Log AnalyticsApplication Insights 和适用于 Azure AD B2C 的 VS Code 扩展来排查问题。 解决问题并部署更新的应用程序或策略后,它会监视关键指标,直到它们恢复到正常范围。
  • 服务警报:使用 Azure AD B2C 服务级别警报获取有关服务问题、计划内维护、运行状况公告和安全公告的通知。

  • 报告:通过使用 Log Analytics,生成关于用户见解、技术挑战和增长机会的报告。

    • Azure 仪表板:使用 Azure 仪表板功能创建自定义仪表板,该功能支持添加使用 Log Analytics 查询的图表。 例如,确定成功的和失败的登录的模式、失败原因以及用于发出请求的设备的相关遥测数据。
    • 放弃 Azure AD B2C 旅程:使用工作簿跟踪已放弃的 Azure AD B2C 旅程。在已放弃的旅程中,用户已启动登录或注册,但从未完成它。 查找有关用户在放弃旅程之前执行的策略 ID 和步骤的详细信息。
    • Azure AD B2C 监视工作簿:使用监视工作簿(包括 Azure AD B2C 仪表板、多重身份验证 (MFA) 操作、条件访问报告以及按 correlationId 分类的搜索日志)。 此做法可更好地了解 Azure AD B2C 环境的运行状况。

后续步骤