在 HDInsight 上为 Apache Kafka 配置存储和可伸缩性

了解如何在 HDInsight 上配置 Apache Kafka 使用的托管磁盘数。

Kafka on HDInsight 在 HDInsight 群集中使用虚拟机的本地磁盘。 由于 Kafka 的 I/O 很高,因此会使用 Azure 托管磁盘提供高吞吐量,并为每个节点提供更多存储。 如果将传统虚拟硬盘 (VHD) 用于 Kafka,每个节点将被限制为 1 TB。 使用托管磁盘,可以使用多个磁盘,实现群集中每个节点 16 TB。

下图提供不带托管磁盘的 Kafka on HDInsight 与带托管磁盘的 Kafka on HDInsight 之间的比较:

具有托管磁盘体系结构的 kafka。

配置托管磁盘:Azure 门户

  1. 按照创建 HDInsight 群集中的步骤操作,了解使用门户创建群集的常用步骤。 请勿完成门户创建过程。

  2. 在“配置和定价”部分中,使用“节点数”字段配置磁盘数。

    注意

    托管磁盘的类型可以为“标准”(HDD) 或“高级”(SSD)。 高级磁盘可与 DS 和 GS 系列 VM 一起使用。 所有其他的 VM 类型使用“标准”。

    “群集大小”部分,其中突出显示了每个工作器节点的磁盘。

配置托管磁盘:Resource Manager 模板

若要控制 Kafka 群集中辅助节点使用的磁盘数,请使用模板的以下部分:

"dataDisksGroups": [
    {
        "disksPerNode": "[variables('disksPerWorkerNode')]"
    }
    ],

后续步骤

有关使用 Apache Kafka on HDInsight 的详细信息,请参阅以下文档: