构建适用于 Apache HBase 的 Java 应用程序

了解如何使用 Java 创建 Apache HBase 应用程序。 然后,将该应用程序用于 Azure HDInsight 上的 HBase。

本文档中的步骤使用 Apache Maven 创建和构建项目。 Maven 是一种软件项目管理和综合工具,可用于为 Java 项目构建软件、文档和报告。

先决条件

测试环境

本文使用的环境是一台运行 Windows 10 的计算机。 命令在命令提示符下执行,各种文件使用记事本进行编辑。 针对环境进行相应的修改。

在命令提示符下,输入以下命令以创建工作环境:

IF NOT EXIST C:\HDI MKDIR C:\HDI
cd C:\HDI

创建 Maven 项目

  1. 输入以下命令,创建名为 hbaseapp 的 Maven 项目:

    mvn archetype:generate -DgroupId=com.microsoft.examples -DartifactId=hbaseapp -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false
    
    cd hbaseapp
    mkdir conf
    

    该命令会在当前位置创建名为 hbaseapp 的目录,其中包含基本 Maven 项目。 第二条命令将工作目录更改为 hbaseapp。 第三条命令创建一个新目录 conf,稍后可使用它。 hbaseapp 目录包含以下项:

    • pom.xml:项目对象模型 (POM) 包含用于生成项目的信息和配置详细信息。
    • src\main\java\com\microsoft\examples:包含应用程序代码。
    • src\test\java\com\microsoft\examples:包含应用程序的测试。
  2. 删除生成的示例代码。 通过输入以下命令,删除生成的测试和应用程序文件(AppTest.javaApp.java):

    DEL src\main\java\com\microsoft\examples\App.java
    DEL src\test\java\com\microsoft\examples\AppTest.java
    

更新项目对象模型

有关 pom.xml 文件的完整参考,请参阅 https://maven.apache.org/pom.html。 输入以下命令来打开 pom.xml

notepad pom.xml

添加依赖项

pom.xml<dependencies> 节中添加以下文本:

<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-shaded-client</artifactId>
    <version>1.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.phoenix</groupId>
    <artifactId>phoenix-core</artifactId>
    <version>4.14.1-HBase-1.1</version>
</dependency>

此部分指示项目需要 hbase-clientphoenix-core 组件。 在编译时,会从默认 Maven 存储库下载这些依赖项。 可以使用 Maven 中央存储库搜索来了解有关此依赖项的详细信息。

重要

hbase-client 的版本号必须与 HDInsight 群集随附的 Apache HBase 版本匹配。 可以使用下表来查找正确的版本号。

HDInsight 群集版本 要使用的 Apache HBase 版本
3.6 1.1.2
4.0 2.0.0

有关 HDInsight 版本和组件的详细信息,请参阅 HDInsight 提供哪些不同的 Apache Hadoop 组件

生成配置

Maven 插件可用于自定义项目的生成阶段。 此节用于添加插件、资源和其他生成配置选项。

将以下代码添加到 pom.xml 文件,然后保存并关闭该文件。 此文本必须位于文件中的 <project>...</project> 标记内,例如 </dependencies></project> 之间。

<build>
    <sourceDirectory>src</sourceDirectory>
    <resources>
    <resource>
        <directory>${basedir}/conf</directory>
        <filtering>false</filtering>
        <includes>
        <include>hbase-site.xml</include>
        </includes>
    </resource>
    </resources>
    <plugins>
    <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-compiler-plugin</artifactId>
                <version>3.8.1</version>
        <configuration>
            <source>1.8</source>
            <target>1.8</target>
        </configuration>
        </plugin>
    <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-shade-plugin</artifactId>
        <version>3.2.1</version>
        <configuration>
        <transformers>
            <transformer implementation="org.apache.maven.plugins.shade.resource.ApacheLicenseResourceTransformer">
            </transformer>
        </transformers>
        </configuration>
        <executions>
        <execution>
            <phase>package</phase>
            <goals>
            <goal>shade</goal>
            </goals>
        </execution>
        </executions>
    </plugin>
    </plugins>
</build>

此部分将配置包含与 HBase 有关的配置信息的资源 (conf/hbase-site.xml)。

注意

也可以通过代码设置配置值。 请参阅 CreateTable 示例中的注释。

此部分还将配置 Apache Maven 编译器插件Apache Maven 阴影插件。 该编译器插件用于编译拓扑。 该阴影插件用于防止在由 Maven 构建的 JAR 程序包中复制许可证。 此插件用于防止 HDInsight 群集在运行时出现“重复的许可证文件”错误。 将 maven-shade-plugin 用于 ApacheLicenseResourceTransformer 实现可防止发生此错误。

maven-shade-plugin 还会生成 uber jar,其中包含应用程序所需的所有依赖项。

下载 hbase-site.xml

使用以下命令将 HBase 配置从 HDInsight 群集复制到 conf 目录。 将 CLUSTERNAME 替换为 HDInsight 群集名称,然后输入以下命令:

scp sshuser@CLUSTERNAME-ssh.azurehdinsight.cn:/etc/hbase/conf/hbase-site.xml ./conf/hbase-site.xml

创建应用程序

实现 CreateTable 类

输入以下命令,以创建并打开新文件 CreateTable.java。 根据提示选择“是”,以创建新文件。

notepad src\main\java\com\microsoft\examples\CreateTable.java

然后,将以下 Java 代码复制并粘贴到新文件中。 然后关闭该文件。

package com.microsoft.examples;
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.util.Bytes;

public class CreateTable {
    public static void main(String[] args) throws IOException {
    Configuration config = HBaseConfiguration.create();

    // Example of setting zookeeper values for HDInsight
    // in code instead of an hbase-site.xml file
    //
    // config.set("hbase.zookeeper.quorum",
    //            "zookeepernode0,zookeepernode1,zookeepernode2");
    //config.set("hbase.zookeeper.property.clientPort", "2181");
    //config.set("hbase.cluster.distributed", "true");
    //
    //NOTE: Actual zookeeper host names can be found using Ambari:
    //curl -u admin:PASSWORD -G "https://CLUSTERNAME.azurehdinsight.cn/api/v1/clusters/CLUSTERNAME/hosts"

    //Linux-based HDInsight clusters use /hbase-unsecure as the znode parent
    config.set("zookeeper.znode.parent","/hbase-unsecure");

    // create an admin object using the config
    HBaseAdmin admin = new HBaseAdmin(config);

    // create the table...
    HTableDescriptor tableDescriptor = new HTableDescriptor(TableName.valueOf("people"));
    // ... with two column families
    tableDescriptor.addFamily(new HColumnDescriptor("name"));
    tableDescriptor.addFamily(new HColumnDescriptor("contactinfo"));
    admin.createTable(tableDescriptor);

    // define some people
    String[][] people = {
        { "1", "Marcel", "Haddad", "marcel@fabrikam.com"},
        { "2", "Franklin", "Holtz", "franklin@contoso.com" },
        { "3", "Dwayne", "McKee", "dwayne@fabrikam.com" },
        { "4", "Rae", "Schroeder", "rae@contoso.com" },
        { "5", "Rosalie", "burton", "rosalie@fabrikam.com"},
        { "6", "Gabriela", "Ingram", "gabriela@contoso.com"} };

    HTable table = new HTable(config, "people");

    // Add each person to the table
    //   Use the `name` column family for the name
    //   Use the `contactinfo` column family for the email
    for (int i = 0; i< people.length; i++) {
        Put person = new Put(Bytes.toBytes(people[i][0]));
        person.add(Bytes.toBytes("name"), Bytes.toBytes("first"), Bytes.toBytes(people[i][1]));
        person.add(Bytes.toBytes("name"), Bytes.toBytes("last"), Bytes.toBytes(people[i][2]));
        person.add(Bytes.toBytes("contactinfo"), Bytes.toBytes("email"), Bytes.toBytes(people[i][3]));
        table.put(person);
    }
    // flush commits and close the table
    table.flushCommits();
    table.close();
    }
}

此代码是 CreateTable 类,该类会创建名为 people 的表,并使用一些预定义的用户填充它。

实现 SearchByEmail 类

输入以下命令,以创建并打开新文件 SearchByEmail.java。 根据提示选择“是”,以创建新文件。

notepad src\main\java\com\microsoft\examples\SearchByEmail.java

然后,将以下 Java 代码复制并粘贴到新文件中。 然后关闭该文件。

package com.microsoft.examples;
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.filter.RegexStringComparator;
import org.apache.hadoop.hbase.filter.SingleColumnValueFilter;
import org.apache.hadoop.hbase.filter.CompareFilter.CompareOp;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.util.GenericOptionsParser;

public class SearchByEmail {
    public static void main(String[] args) throws IOException {
    Configuration config = HBaseConfiguration.create();

    // Use GenericOptionsParser to get only the parameters to the class
    // and not all the parameters passed (when using WebHCat for example)
    String[] otherArgs = new GenericOptionsParser(config, args).getRemainingArgs();
    if (otherArgs.length != 1) {
        System.out.println("usage: [regular expression]");
        System.exit(-1);
    }

    // Open the table
    HTable table = new HTable(config, "people");

    // Define the family and qualifiers to be used
    byte[] contactFamily = Bytes.toBytes("contactinfo");
    byte[] emailQualifier = Bytes.toBytes("email");
    byte[] nameFamily = Bytes.toBytes("name");
    byte[] firstNameQualifier = Bytes.toBytes("first");
    byte[] lastNameQualifier = Bytes.toBytes("last");

    // Create a regex filter
    RegexStringComparator emailFilter = new RegexStringComparator(otherArgs[0]);
    // Attach the regex filter to a filter
    //   for the email column
    SingleColumnValueFilter filter = new SingleColumnValueFilter(
        contactFamily,
        emailQualifier,
        CompareOp.EQUAL,
        emailFilter
    );

    // Create a scan and set the filter
    Scan scan = new Scan();
    scan.setFilter(filter);

    // Get the results
    ResultScanner results = table.getScanner(scan);
    // Iterate over results and print  values
    for (Result result : results ) {
        String id = new String(result.getRow());
        byte[] firstNameObj = result.getValue(nameFamily, firstNameQualifier);
        String firstName = new String(firstNameObj);
        byte[] lastNameObj = result.getValue(nameFamily, lastNameQualifier);
        String lastName = new String(lastNameObj);
        System.out.println(firstName + " " + lastName + " - ID: " + id);
        byte[] emailObj = result.getValue(contactFamily, emailQualifier);
        String email = new String(emailObj);
        System.out.println(firstName + " " + lastName + " - " + email + " - ID: " + id);
    }
    results.close();
    table.close();
    }
}

SearchByEmail 类可用于按电子邮件地址查询行。 由于它使用正则表达式筛选器,因此,可以在使用类时提供字符串或正则表达式。

实现 DeleteTable 类

输入以下命令,以创建并打开新文件 DeleteTable.java。 根据提示选择“是”,以创建新文件。

notepad src\main\java\com\microsoft\examples\DeleteTable.java

然后,将以下 Java 代码复制并粘贴到新文件中。 然后关闭该文件。

package com.microsoft.examples;
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HBaseAdmin;

public class DeleteTable {
    public static void main(String[] args) throws IOException {
    Configuration config = HBaseConfiguration.create();

    // Create an admin object using the config
    HBaseAdmin admin = new HBaseAdmin(config);

    // Disable, and then delete the table
    admin.disableTable("people");
    admin.deleteTable("people");
    }
}

DeleteTable 类将通过禁用并删除由 CreateTable 类创建的表清除在此示例中创建的 HBase 表。

生成并打包应用程序

  1. hbaseapp 目录中,使用以下命令来构建包含应用程序的 JAR 文件:

    mvn clean package
    

    此命令构建应用程序并将其打包到一个 .jar 文件中。

  2. 命令完成之后,hbaseapp/target 目录包含一个名为 hbaseapp-1.0-SNAPSHOT.jar 的文件。

    注意

    hbaseapp-1.0-SNAPSHOT.jar 文件是一个 uber jar。 它包含运行应用程序所需的所有依赖项。

上传 JAR 并运行作业 (SSH)

以下步骤使用 scp 将 JAR 复制到 Apache HBase on HDInsight 群集的主要头节点。 然后使用 ssh 命令连接到群集并直接在头节点上运行示例。

  1. 将该 jar 上传到群集。 将 CLUSTERNAME 替换为 HDInsight 群集名称,然后输入以下命令:

    scp ./target/hbaseapp-1.0-SNAPSHOT.jar sshuser@CLUSTERNAME-ssh.azurehdinsight.cn:hbaseapp-1.0-SNAPSHOT.jar
    
  2. 连接到 HBase 群集。 将 CLUSTERNAME 替换为 HDInsight 群集名称,然后输入以下命令:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.cn
    
  3. 若要使用 Java 应用程序创建 HBase 表,请在打开的 ssh 连接中使用以下命令:

    yarn jar hbaseapp-1.0-SNAPSHOT.jar com.microsoft.examples.CreateTable
    

    此命令会创建名为 people 的一个 HBase 表,并在其中填充数据。

  4. 若要搜索表中存储的电子邮件地址,请使用以下命令:

    yarn jar hbaseapp-1.0-SNAPSHOT.jar com.microsoft.examples.SearchByEmail contoso.com
    

    将生成以下结果:

    Franklin Holtz - ID: 2
    Franklin Holtz - franklin@contoso.com - ID: 2
    Rae Schroeder - ID: 4
    Rae Schroeder - rae@contoso.com - ID: 4
    Gabriela Ingram - ID: 6
    Gabriela Ingram - gabriela@contoso.com - ID: 6
    
  5. 若要删除表,请使用以下命令:

    yarn jar hbaseapp-1.0-SNAPSHOT.jar com.microsoft.examples.DeleteTable
    

上传 JAR 并运行作业 (PowerShell)

以下步骤使用 Azure PowerShell AZ 模块将 JAR 上传到 Apache HBase 群集的默认存储。 然后使用 HDInsight cmdlet 远程运行示例。

  1. 安装并配置 AZ 模块后,创建一个名为 hbase-runner.psm1 的文件。 将以下文本用作此文件的内容:

     <#
     .SYNOPSIS
     Copies a file to the primary storage of an HDInsight cluster.
     .DESCRIPTION
     Copies a file from a local directory to the blob container for
     the HDInsight cluster.
     .EXAMPLE
     Start-HBaseExample -className "com.microsoft.examples.CreateTable"
     -clusterName "MyHDInsightCluster"
    
     .EXAMPLE
     Start-HBaseExample -className "com.microsoft.examples.SearchByEmail"
     -clusterName "MyHDInsightCluster"
     -emailRegex "contoso.com"
    
     .EXAMPLE
     Start-HBaseExample -className "com.microsoft.examples.SearchByEmail"
     -clusterName "MyHDInsightCluster"
     -emailRegex "^r" -showErr
     #>
    
     function Start-HBaseExample {
     [CmdletBinding(SupportsShouldProcess = $true)]
     param(
     #The class to run
     [Parameter(Mandatory = $true)]
     [String]$className,
    
     #The name of the HDInsight cluster
     [Parameter(Mandatory = $true)]
     [String]$clusterName,
    
     #Only used when using SearchByEmail
     [Parameter(Mandatory = $false)]
     [String]$emailRegex,
    
     #Use if you want to see stderr output
     [Parameter(Mandatory = $false)]
     [Switch]$showErr
     )
    
     Set-StrictMode -Version 3
    
     # Is the Azure module installed?
     FindAzure
    
     # Get the login for the HDInsight cluster
     $creds=Get-Credential -Message "Enter the login for the cluster" -UserName "admin"
    
     # The JAR
     $jarFile = "wasb:///example/jars/hbaseapp-1.0-SNAPSHOT.jar"
    
     # The job definition
     $jobDefinition = New-AzHDInsightMapReduceJobDefinition `
         -JarFile $jarFile `
         -ClassName $className `
         -Arguments $emailRegex
    
     # Get the job output
     $job = Start-AzHDInsightJob `
         -ClusterName $clusterName `
         -JobDefinition $jobDefinition `
         -HttpCredential $creds
     Write-Host "Wait for the job to complete ..." -ForegroundColor Green
     Wait-AzHDInsightJob `
         -ClusterName $clusterName `
         -JobId $job.JobId `
         -HttpCredential $creds
     if($showErr)
     {
     Write-Host "STDERR"
     Get-AzHDInsightJobOutput `
                 -Clustername $clusterName `
                 -JobId $job.JobId `
                 -HttpCredential $creds `
                 -DisplayOutputType StandardError
     }
     Write-Host "Display the standard output ..." -ForegroundColor Green
     Get-AzHDInsightJobOutput `
                 -Clustername $clusterName `
                 -JobId $job.JobId `
                 -HttpCredential $creds
     }
    
     <#
     .SYNOPSIS
     Copies a file to the primary storage of an HDInsight cluster.
     .DESCRIPTION
     Copies a file from a local directory to the blob container for
     the HDInsight cluster.
     .EXAMPLE
     Add-HDInsightFile -localPath "C:\temp\data.txt"
     -destinationPath "example/data/data.txt"
     -ClusterName "MyHDInsightCluster"
     .EXAMPLE
     Add-HDInsightFile -localPath "C:\temp\data.txt"
     -destinationPath "example/data/data.txt"
     -ClusterName "MyHDInsightCluster"
     -Container "MyContainer"
     #>
    
     function Add-HDInsightFile {
         [CmdletBinding(SupportsShouldProcess = $true)]
         param(
             #The path to the local file.
             [Parameter(Mandatory = $true)]
             [String]$localPath,
    
             #The destination path and file name, relative to the root of the container.
             [Parameter(Mandatory = $true)]
             [String]$destinationPath,
    
             #The name of the HDInsight cluster
             [Parameter(Mandatory = $true)]
             [String]$clusterName,
    
             #If specified, overwrites existing files without prompting
             [Parameter(Mandatory = $false)]
             [Switch]$force
         )
    
         Set-StrictMode -Version 3
    
         # Is the Azure module installed?
         FindAzure
    
         # Get authentication for the cluster
         $creds=Get-Credential
    
         # Does the local path exist?
         if (-not (Test-Path $localPath))
         {
             throw "Source path '$localPath' does not exist."
         }
    
         # Get the primary storage container
         $storage = GetStorage -clusterName $clusterName
    
         # Upload file to storage, overwriting existing files if -force was used.
         Set-AzStorageBlobContent -File $localPath `
             -Blob $destinationPath `
             -force:$force `
             -Container $storage.container `
             -Context $storage.context
     }
    
     function FindAzure {
         # Is there an active Azure subscription?
         $sub = Get-AzSubscription -ErrorAction SilentlyContinue
         if(-not($sub))
         {
             Connect-AzAccount -Environment AzureChinaCloud
         }
     }
    
     function GetStorage {
         param(
             [Parameter(Mandatory = $true)]
             [String]$clusterName
         )
         $hdi = Get-AzHDInsightCluster -ClusterName $clusterName
         # Does the cluster exist?
         if (!$hdi)
         {
             throw "HDInsight cluster '$clusterName' does not exist."
         }
         # Create a return object for context & container
         $return = @{}
         $storageAccounts = @{}
    
         # Get storage information
         $resourceGroup = $hdi.ResourceGroup
         $storageAccountName=$hdi.DefaultStorageAccount.split('.')[0]
         $container=$hdi.DefaultStorageContainer
         $storageAccountKey=(Get-AzStorageAccountKey `
             -Name $storageAccountName `
         -ResourceGroupName $resourceGroup)[0].Value
         # Get the resource group, in case we need that
         $return.resourceGroup = $resourceGroup
         # Get the storage context, as we can't depend
         # on using the default storage context
         $return.context = New-AzStorageContext -StorageAccountName $storageAccountName -StorageAccountKey $storageAccountKey
         # Get the container, so we know where to
         # find/store blobs
         $return.container = $container
         # Return storage accounts to support finding all accounts for
         # a cluster
         $return.storageAccount = $storageAccountName
         $return.storageAccountKey = $storageAccountKey
    
         return $return
     }
     # Only export the verb-phrase things
     export-modulemember *-*
    

    此文件包含两个模块:

    • Add-HDInsightFile - 用于将文件上传到群集
    • Start-HBaseExample - 用于运行以前创建的类
  2. hbase-runner.psm1 文件保存在 hbaseapp 目录中。

  3. 将这些模块注册到 Azure PowerShell。 打开新的 Azure PowerShell 窗口,编辑以下命令,将 CLUSTERNAME 替换为群集的名称。 然后输入以下命令:

    cd C:\HDI\hbaseapp
    $myCluster = "CLUSTERNAME"
    Import-Module .\hbase-runner.psm1
    
  4. 使用以下命令将 hbaseapp-1.0-SNAPSHOT.jar 上传到群集。

    Add-HDInsightFile -localPath target\hbaseapp-1.0-SNAPSHOT.jar -destinationPath example/jars/hbaseapp-1.0-SNAPSHOT.jar -clusterName $myCluster
    

    出现提示时,输入群集登录名 (admin) 和密码。 此命令将 hbaseapp-1.0-SNAPSHOT.jar 上传到群集的主存储中的 example/jars 位置。

  5. 若要使用 hbaseapp 创建表,请使用以下命令:

    Start-HBaseExample -className com.microsoft.examples.CreateTable -clusterName $myCluster
    

    出现提示时,输入群集登录名 (admin) 和密码。

    此命令会在 HDInsight 群集上的 HBase 中创建一个名为 people 的表。 此命令在控制台窗口中不显示任何输出。

  6. 若要在表中搜索条目,请使用以下命令:

    Start-HBaseExample -className com.microsoft.examples.SearchByEmail -clusterName $myCluster -emailRegex contoso.com
    

    出现提示时,输入群集登录名 (admin) 和密码。

    此命令使用 SearchByEmail 类搜索 contactinformation 列系列和 email 列包含字符串 contoso.com 的任何行。 应该会收到以下结果:

    Franklin Holtz - ID: 2
    Franklin Holtz - franklin@contoso.com - ID: 2
    Rae Schroeder - ID: 4
    Rae Schroeder - rae@contoso.com - ID: 4
    Gabriela Ingram - ID: 6
    Gabriela Ingram - gabriela@contoso.com - ID: 6
    

    fabrikam.com 用于 -emailRegex 值会返回电子邮件字段中包含 fabrikam.com 的用户。 还可以使用正则表达式作为搜索词。 例如,^r 返回以字母“r”开头的电子邮件地址。

  7. 若要删除表,请使用以下命令:

    Start-HBaseExample -className com.microsoft.examples.DeleteTable -clusterName $myCluster
    

使用 Start-HBaseExample 时无结果或意外结果

使用 -showErr 参数可查看运行作业时生成的标准错误 (STDERR)。

后续步骤

了解如何将 SQLLine 与 Apache HBase 配合使用