通过 Apache Kafka on HDInsight 实现数据的高可用性
了解如何为 Apache Kafka 主题配置分区副本,充分利用基础硬件机架配置。 此配置可确保存储在 HDInsight 上的 Apache Kafka 中的数据的可用性。
Apache Kafka 的容错域和更新域
容错域是 Azure 数据中心基础硬件的逻辑分组。 每个容错域共享公用电源和网络交换机。 在 HDInsight 群集中实现节点的虚拟机和托管磁盘跨这些容错域分布。 此体系结构可限制物理硬件故障造成的潜在影响。
每个 Azure 区域都有特定数量的容错域。 如需域的列表及其所含容错域的数目,请参阅可用性集文档。
重要
Kafka 不识别容错域。 在 Kafka 中创建主题时,可能会将所有分区副本存储在同一容错域中。 为了解决此问题,HDInsight 提供了 Kafka 分区重新均衡工具。
何时重新均衡分区副本
若要确保 Kafka 数据的最高可用性,应该在以下时间为主题重新均衡分区副本:
创建新主题或分区时
扩展群集时
复制因子
重要
建议使用包含三个容错域的 Azure 区域,并使用 3 作为复制因子。
如果必须使用只包含两个容错域的区域,请使用 4 作为复制因子,将副本均衡地分布到两个容错域中。
如需创建主题和设置复制因子的示例,请参阅 HDInsight 上的 Apache Kafka 入门文档。
如何重新均衡分区副本
使用 Apache Kafka 分区重新均衡工具以重新均衡所选主题。 必须通过 SSH 会话运行此工具,以便连接到 Kafka 群集的头节点。
若要详细了解如何使用 SSH 连接到 HDInsight,请参阅将 SSH 与 HDInsight 配合使用文档。