将 Service Fabric 群集迁移到可用性区域支持

本指南介绍如何将 Service Fabric 群集从非可用性区域支持迁移到可用性支持。我们将介绍不同的迁移选项。跨可用性区域分布的 Service Fabric 群集可确保群集状态的高可用性。

可以迁移托管和非托管群集。本文介绍了这两种方法。

对于非托管群集，我们将讨论两种不同的方案：

迁移具有标准 SKU 负载均衡器和 IP 资源的群集。此配置支持可用性区域，且无需创建新资源。
迁移具有基本 SKU 负载均衡器和 IP 资源的群集。此配置不支持可用性区域，需要创建新资源。

请查看每个标题下与你的 Service Fabric 群集方案相关的部分。

注意

只有在组建了三个区域时，可用性区域中主节点类型的优势才能体现，如果只组建了两个区域，则看不到这种优势。这适用于托管群集和非托管群集。

Service Fabric 跨可用性区域模板中提供了示例模板。

先决条件

Service Fabric 托管群集

必需：

标准 SKU 群集。
区域中的三个可用性区域。

Service Fabric 非托管群集

必需：N/A。

现有的标准 SKU 负载均衡器和 IP 资源

此方案没有先决条件，因为它假设你已准备好必需的资源。

基本 SKU 负载均衡器和 IP 资源

使用标准 SKU 的新负载均衡器，不同于现有的基本 SKU 负载均衡器。
使用标准 SKU 的新 IP 资源，不同于现有的基本 SKU IP 资源。

注意

无法将现有资源从基本 SKU 升级到标准 SKU，因此需要新资源。

故障时间要求

Service Fabric 管理群集

迁移到区域复原配置可能会导致通过负载均衡器的外部连接短暂丢失，但不会影响群集运行状况。如果需要创建新的公共 IP 以增强对区域故障的弹性，外部连接会中断。请相应地规划迁移。

Service Fabric 非托管群集

迁移 Service Fabric 非托管群集的停机时间因群集中的 VM 数和升级域（UD）而异。 UD 是 VM 的逻辑分组，决定了将升级推送到群集中 VM 的顺序。停机时间还受群集升级模式的影响，该模式将处理群集中 UD 升级任务的处理方式。后续部分更详细地介绍了用于控制升级模式的 sfZonalUpgradeMode 属性。

Service Fabric 托管群集的迁移

请按照将 Service Fabric 托管群集升级为区域可用性的步骤进行操作。

Service Fabric 非托管群集的迁移选项

迁移选项 1：在单个虚拟机规模集中启用多个可用性区域

何时使用此选项

此解决方案使用户可以在同一节点类型中跨越三个可用性区域。这是建议的部署拓扑，因为它使你能够跨可用性区域进行部署，同时维护单个虚拟机规模集。

有关完整的示例模板，请参阅 GitHub。

当您需要迁移现有具备标准 SKU 负载均衡器和 IP 资源的 Service Fabric 非托管群集时，应使用此选项。如果现有的非托管群集具有基本 SKU 资源，应会看到下面的基本 SKU 迁移选项。

如何迁移包含现有标准 SKU 负载均衡器和 IP 资源的 Service Fabric 非托管群集

若要在虚拟机规模集上启用区域，请执行以下操作：

在虚拟机规模集资源中包含以下三个值：

第一个值为 zones 属性，该属性指定虚拟机规模集中存在的可用性区域。
第二个值是 singlePlacementGroup 属性，该属性应设置为 true。即使 singlePlacementGroup = true，跨三个可用性区域的规模集也可纵向扩展至 300 个 VM。
第三个值为 zoneBalance，该值可确保严格进行区域均衡。该值应为 true。它确保了 VM 跨区域均匀分布，这意味着当一个区域出现故障时，其他两个区域有足够的 VM 来保持群集运行。

在一个区域出现故障的情况下，VM 分发不均衡的群集可能无法运行，因为该区域可能拥有大多数 VM。 VM 跨区域分发不均衡还会导致服务放置问题和基础结构更新停滞。详细了解区域均衡。

不需要配置 FaultDomain 和 UpgradeDomain 替代。

{
  "apiVersion": "2018-10-01",
  "type": "Microsoft.Compute/virtualMachineScaleSets",
  "name": "[parameters('vmNodeType1Name')]",
  "location": "[parameters('computeLocation')]",
  "zones": [ "1", "2", "3" ],
  "properties": {
    "singlePlacementGroup": true,
    "zoneBalance": true
  }
}

注意

Service Fabric 群集应至少有一个主节点类型。主节点类型的持久性级别应为银级或更高级别。
跨虚拟机规模集的可用性区域应至少配置三个可用性区域，无论其持久性级别如何。
跨具有银级或更高级别持久性的虚拟机规模集的可用性区域应至少有 15 个 VM。
跨具有铜级持久性的虚拟机规模集的可用性区域应至少有 6 个 VM。

启用对 Service Fabric 节点类型中多个区域的支持

若要支持多个可用性区域，必须启用 Service Fabric 节点类型。

第一个值为 multipleAvailabilityZones，对于节点类型该值应设置为 true。
第二个值为 sfZonalUpgradeMode，该值为可选。如果群集中已存在具有多个可用性区域的节点类型，则无法修改此属性。此属性控制 UD 中 VM 的逻辑分组。
- 如果此值设置为 Parallel：节点类型下的 VM 将分组到 UD，并忽略五个 UD 中的区域信息。此设置会导致所有区域中的 UD 同时升级。尽管此部署模式用于升级速度会更快，但不建议使用，因为它违反了 SDP 准则，该准则规定一次只能对一个区域应用更新。
- 如果此值被省略或设置为 Hierarchical：VM 将分组以反映最多 15 个 UD 中的区域性分布。三个区域各有五个 UD。这可以确保每次只更新一个区域，并且只有在完成第一个区域内的五个 UD 之后，才会移动到下一个区域。更新过程对于群集和用户应用程序更安全。
此属性仅定义 Service Fabric 应用程序和代码升级的升级行为。基础虚拟机规模集升级仍在所有可用性区域中并行进行。此属性不影响未启用多个区域的节点类型的 UD 分布。
第三个值为 vmssZonalUpgradeMode，它为可选值，可以随时更新。此属性定义虚拟机规模集跨可用性区域并行或按顺序进行的升级方案。
- 如果将此值设置为 Parallel：所有区域的规模集更新将并行进行。此部署模式用于升级速度会更快，因此我们不建议使用，因为它违反了 SDP 准则，该准则规定一次只能对一个区域应用更新。
- 如果省略此值或将其设置为 Hierarchical：这样可以确保一次更新一个区域，仅在第一个区域内完成五个 UD 之后才移动到下一个区域。此更新过程对于群集和用户应用程序更安全。

重要

Service Fabric 群集资源 API 版本应为 2020-12-01-preview 或更高版本。

群集代码版本至少应为 8.1.321 或更高版本。

{
  "apiVersion": "2020-12-01-preview",
  "type": "Microsoft.ServiceFabric/clusters",
  "name": "[parameters('clusterName')]",
  "location": "[parameters('clusterLocation')]",
  "dependsOn": [
    "[concat('Microsoft.Storage/storageAccounts/', parameters('supportLogStorageAccountName'))]"
  ],
  "properties": {
    "reliabilityLevel": "Platinum",
    "sfZonalUpgradeMode": "Hierarchical",
    "vmssZonalUpgradeMode": "Parallel",
    "nodeTypes": [
      {
        "name": "[parameters('vmNodeType0Name')]",
        "multipleAvailabilityZones": true
      }
    ]
  }
}

注意

公共 IP 和负载均衡器资源应使用本文前面所述的标准 SKU。
节点类型上的 multipleAvailabilityZones 属性只能在创建节点类型时定义，且以后不能修改。无法使用此属性配置现有的节点类型。
如果 sfZonalUpgradeMode 被省略或设置为 Hierarchical，则群集和应用程序部署将会变慢，因为群集中存在更多升级域。必须正确调整升级策略的超时，以考虑 15 个升级域所需的升级时间。应更新应用程序和群集的升级策略，以确保部署不会超过 12 小时的 Azure 资源服务部署时间限制。这意味着部署 15 个 UD 不应超过 12 小时（也就是说，每个 UD 不应超过 40 分钟）。
将群集可靠性级别设置为 Platinum，以确保群集在一个区域出现故障的情况下能正常运行。
不支持为具有多个可用性区域的节点类型升级持久性级别。请改为创建具有更高持久性的新节点类型。
SF 仅支持 3 个可用性区域。目前不支持任何更高的数目。

提示

建议将 sfZonalUpgradeMode 设置为 Hierarchical 或将其省略。部署将遵循 VM 的区域性分布并将影响少量副本或实例，使其更安全。如果部署速度是优先考虑的事项，或者只有无状态工作负载在具有多个可用性区域的节点类型上运行，请使用设置为 sfZonalUpgradeMode 的 Parallel。这会使 UD 遍历在所有可用性区域中并行发生。

迁移到具有多个可用性区域的节点类型

对于所有迁移方案，都需要添加支持多个可用性区域的新节点类型。无法迁移现有节点类型以支持多个区域。纵向扩展 Service Fabric 群集主节点类型一文包括添加新节点类型和该新节点类型所需的其他资源（如 IP 和负载均衡器资源）的详细步骤。本文还介绍了如何在将具有多个可用性区域的新节点类型添加到群集后停用现有节点类型。

从使用基本负载均衡器和 IP 资源的节点类型迁移：对于每个可用性区域具有一个节点类型的解决方案，下面的子节中已介绍了此过程。

对于新的节点类型，唯一的区别是所有可用性区域只有一个虚拟机规模集和一个节点类型，而不是每个可用性区域各一个。
从使用标准 SKU 负载均衡器和带有 NSG 的 IP 资源的节点类型进行迁移：遵循前面描述的相同过程。但是，无需添加新的负载均衡器、IP 和 NSG 资源。可以在新节点类型中重复使用相同的资源。

如果遇到任何问题，请联系支持人员寻求帮助。

迁移选项 2：将一个虚拟机规模集固定到每个区域以部署区域

何时使用此选项

这是目前提供的一般配置。

若要使 Service Fabric 群集跨越可用性区域，必须在该区域支持的每个可用性区域中创建一个主节点类型。这会在每个主节点类型上平均分布种子节点。

建议用于主节点类型的拓扑需要以下内容：

三个标记为主节点的节点类型
- 每个节点类型都应映射到其自己的位于不同区域的虚拟机规模集。
- 每个虚拟机规模集应至少具有五个节点（银级可靠性）。

如何迁移包含现有标准 SKU 负载均衡器和 IP 资源的 Service Fabric 非托管群集

在虚拟机规模集上启用区域

若要在虚拟机规模集上启用区域，请在虚拟机规模集资源中包含以下三个值：

第一个值为 zones 属性，它指定虚拟机规模集部署到的可用性区域。
第二个值是 singlePlacementGroup 属性，该属性应设置为 true。
第三个值为 Service Fabric 虚拟机规模集扩展中的 faultDomainOverride 属性。此属性应只包含放置此虚拟机规模集的区域。示例："faultDomainOverride": "az1"。所有虚拟机规模集资源必须放置在同一区域，因为 Azure Service Fabric 群集没有跨区域支持。

{
  "apiVersion": "2018-10-01",
  "type": "Microsoft.Compute/virtualMachineScaleSets",
  "name": "[parameters('vmNodeType1Name')]",
  "location": "[parameters('computeLocation')]",
  "zones": [
    "1"
  ],
  "properties": {
    "singlePlacementGroup": true
  },
  "virtualMachineProfile": {
    "extensionProfile": {
      "extensions": [
        {
          "name": "[concat(parameters('vmNodeType1Name'),'_ServiceFabricNode')]",
          "properties": {
            "type": "ServiceFabricNode",
            "autoUpgradeMinorVersion": false,
            "publisher": "Microsoft.Azure.ServiceFabric",
            "settings": {
              "clusterEndpoint": "[reference(parameters('clusterName')).clusterEndpoint]",
              "nodeTypeRef": "[parameters('vmNodeType1Name')]",
              "dataPath": "D:\\\\SvcFab",
              "durabilityLevel": "Silver",
              "certificate": {
                "thumbprint": "[parameters('certificateThumbprint')]",
                "x509StoreName": "[parameters('certificateStoreValue')]"
              },
              "systemLogUploadSettings": {
                "Enabled": true
              },
              "faultDomainOverride": "az1"
            },
            "typeHandlerVersion": "1.0"
          }
        }
      ]
    }
  }
}

在 Service Fabric 群集资源中启用多个主节点类型

若要在群集资源中将一个或多个节点类型设置为主要，请将isPrimary 属性设置为 true。跨可用性区域部署 Service Fabric 群集时，应该在不同的区域有三种节点类型。

{
  "reliabilityLevel": "Platinum",
  "nodeTypes": [
    {
      "name": "[parameters('vmNodeType0Name')]",
      "applicationPorts": {
        "endPort": "[parameters('nt0applicationEndPort')]",
        "startPort": "[parameters('nt0applicationStartPort')]"
      },
      "clientConnectionEndpointPort": "[parameters('nt0fabricTcpGatewayPort')]",
      "durabilityLevel": "Silver",
      "ephemeralPorts": {
        "endPort": "[parameters('nt0ephemeralEndPort')]",
        "startPort": "[parameters('nt0ephemeralStartPort')]"
      },
      "httpGatewayEndpointPort": "[parameters('nt0fabricHttpGatewayPort')]",
      "isPrimary": true,
      "vmInstanceCount": "[parameters('nt0InstanceCount')]"
    },
    {
      "name": "[parameters('vmNodeType1Name')]",
      "applicationPorts": {
        "endPort": "[parameters('nt1applicationEndPort')]",
        "startPort": "[parameters('nt1applicationStartPort')]"
      },
      "clientConnectionEndpointPort": "[parameters('nt1fabricTcpGatewayPort')]",
      "durabilityLevel": "Silver",
      "ephemeralPorts": {
        "endPort": "[parameters('nt1ephemeralEndPort')]",
        "startPort": "[parameters('nt1ephemeralStartPort')]"
      },
      "httpGatewayEndpointPort": "[parameters('nt1fabricHttpGatewayPort')]",
      "isPrimary": true,
      "vmInstanceCount": "[parameters('nt1InstanceCount')]"
    },
    {
      "name": "[parameters('vmNodeType2Name')]",
      "applicationPorts": {
        "endPort": "[parameters('nt2applicationEndPort')]",
        "startPort": "[parameters('nt2applicationStartPort')]"
      },
      "clientConnectionEndpointPort": "[parameters('nt2fabricTcpGatewayPort')]",
      "durabilityLevel": "Silver",
      "ephemeralPorts": {
        "endPort": "[parameters('nt2ephemeralEndPort')]",
        "startPort": "[parameters('nt2ephemeralStartPort')]"
      },
      "httpGatewayEndpointPort": "[parameters('nt2fabricHttpGatewayPort')]",
      "isPrimary": true,
      "vmInstanceCount": "[parameters('nt2InstanceCount')]"
    }
  ]
}

如果遇到任何问题，请联系支持人员寻求帮助。

迁移选项：具有基本 SKU 负载均衡器和 IP 资源的 Service Fabric 非托管群集

何时使用此选项

如果现有的 Service Fabric 非托管群集包含你要迁移的基本 SKU 负载均衡器和 IP 资源，则你应使用此选项。如果现有的非托管群集具有标准 SKU 资源，应会看到上述迁移选项。如果尚未创建非托管群集，但知道想要启用 AZ，请使用标准 SKU 资源创建它。

如何迁移包含基本 SKU 负载均衡器和 IP 资源的 Service Fabric 非托管群集

若要迁移使用基本 SKU 负载均衡器和 IP 的群集，必须先使用标准 SKU 创建全新的负载均衡器和 IP 资源。目前无法更新这些资源。

请在您想使用的新跨可用性区域的节点类型中引用新的负载均衡器和 IP。在上一个示例中，区域 1、2 和 3 中添加了三个新的虚拟机规模集资源。这些虚拟机规模集引用新创建的负载均衡器和 IP，并在 Service Fabric 群集资源中被标记为主节点类型。

首先，将新资源添加到现有 Azure 资源管理器模板。这些资源包括：
- 使用标准 SKU 的公共 IP 资源
- 使用标准 SKU 的负载均衡器资源
- 由在其中部署虚拟机规模集的子网所引用的 NSG
- 三个标记为主节点的节点类型
  - 每个节点类型都应映射到其自己的位于不同区域的虚拟机规模集。
  - 每个虚拟机规模集应至少具有五个节点（银级可靠性）。
可在示例模板中找到这些资源的示例。
```
New-AzureRmResourceGroupDeployment `
    -ResourceGroupName $ResourceGroupName `
    -TemplateFile $Template `
    -TemplateParameterFile $Parameters
```

部署完资源后，便可以从原始群集禁用主节点类型中的节点。禁用节点之后，系统服务将迁移到之前部署的新主节点类型。

Connect-ServiceFabricCluster -ConnectionEndpoint $ClusterName `
    -KeepAliveIntervalInSec 10 `
    -X509Credential `
    -ServerCertThumbprint $thumb  `
    -FindType FindByThumbprint `
    -FindValue $thumb `
    -StoreLocation CurrentUser `
    -StoreName My 

Write-Host "Connected to cluster"

$nodeNames = @("_nt0_0", "_nt0_1", "_nt0_2", "_nt0_3", "_nt0_4")

Write-Host "Disabling nodes..."
foreach($name in $nodeNames) {
    Disable-ServiceFabricNode -NodeName $name -Intent RemoveNode -Force
}

禁用全部节点之后，系统服务将在跨区域分布的主节点类型上运行。然后，可以从群集中删除禁用的节点。删除节点后，可以删除原始 IP、负载均衡器和虚拟机规模集资源。

foreach($name in $nodeNames){
    # Remove the node from the cluster
    Remove-ServiceFabricNodeState -NodeName $name -TimeoutSec 300 -Force
    Write-Host "Removed node state for node $name"
}

$scaleSetName="nt0"
Remove-AzureRmVmss -ResourceGroupName $groupname -VMScaleSetName $scaleSetName -Force

$lbname="LB-cluster-nt0"
$oldPublicIpName="LBIP-cluster-0"
$newPublicIpName="LBIP-cluster-1"

Remove-AzureRmLoadBalancer -Name $lbname -ResourceGroupName $groupname -Force
Remove-AzureRmPublicIpAddress -Name $oldPublicIpName -ResourceGroupName $groupname -Force

然后，从已部署的资源管理器模板中删除对这些资源的引用。
最后，更新 DNS 名称和公共 IP。

$oldprimaryPublicIP = Get-AzureRmPublicIpAddress -Name $oldPublicIpName  -ResourceGroupName $groupname
$primaryDNSName = $oldprimaryPublicIP.DnsSettings.DomainNameLabel
$primaryDNSFqdn = $oldprimaryPublicIP.DnsSettings.Fqdn

Remove-AzureRmLoadBalancer -Name $lbname -ResourceGroupName $groupname -Force
Remove-AzureRmPublicIpAddress -Name $oldPublicIpName -ResourceGroupName $groupname -Force

$PublicIP = Get-AzureRmPublicIpAddress -Name $newPublicIpName  -ResourceGroupName $groupname
$PublicIP.DnsSettings.DomainNameLabel = $primaryDNSName
$PublicIP.DnsSettings.Fqdn = $primaryDNSFqdn
Set-AzureRmPublicIpAddress -PublicIpAddress $PublicIP

如果遇到任何问题，请联系支持人员寻求帮助。

后续步骤

Last updated on 2026-02-02