在 HDInsight 上为 Apache Kafka 配置存储和可伸缩性

了解如何在 HDInsight 上配置 Apache Kafka 使用的托管磁盘数。

Kafka on HDInsight 在 HDInsight 群集中使用虚拟机的本地磁盘。 由于 Kafka 的 I/O 很高,因此会使用 Azure 托管磁盘提供高吞吐量,并为每个节点提供更多存储。 如果将传统虚拟硬盘 (VHD) 用于 Kafka,每个节点将被限制为 1 TB。 如果使用托管磁盘,可以使用多个磁盘,实现群集中每个节点 16 TB。

下图提供不带托管磁盘的 Kafka on HDInsight 与带托管磁盘的 Kafka on HDInsight 之间的比较:

显示每 VM 使用单个 VHD 与每 VM 使用多个托管磁盘的 Kafka on HDInsight 的图表

配置托管磁盘:Azure 门户

  1. 按照创建 HDInsight 群集中的步骤操作,了解使用门户创建群集的常用步骤。 请勿完成门户创建过程。

  2. 在“群集大小”部分中,使用“每个工作节点的磁盘数”字段来配置磁盘数。

    Note

    托管磁盘的类型可以为“标准”(HDD) 或“高级”(SSD)。 高级磁盘可与 DS 系列 VM 一起使用。 所有其他的 VM 类型使用“标准”。

    “群集大小”部分的图像,其中突出显示了每个工作节点的磁盘数

配置托管磁盘:资源管理器模板

若要控制 Kafka 群集中工作节点使用的磁盘数,请使用模板的以下节:

"dataDisksGroups": [
    {
        "disksPerNode": "[variables('disksPerWorkerNode')]"
    }
    ],

https://hditutorialdata.blob.core.chinacloudapi.cn/armtemplates/create-linux-based-kafka-mirror-cluster-in-vnet-v2.1.json 处提供演示如何配置托管磁盘的完整模板。

后续步骤

有关使用 Kafka on HDInsight 的详细信息,请参阅以下文档: