如何以 CSV、JSON、XML、文本或 HTML 格式转储表How to dump tables in CSV, JSON, XML, text, or HTML format

你希望将 Azure Databricks 中的计算结果发送到 Azure Databricks 外。You want to send results of your computations in Azure Databricks outside Azure Databricks. 可以使用 BI 工具通过 JDBC 连接到群集,然后从 BI 工具导出结果;也可以将表保存在 DBFS 或 Blob 存储中,然后通过 REST API 复制数据。You can use BI tools to connect to your cluster via JDBC and export results from the BI tools, or save your tables in DBFS or blob storage and copy the data via REST API.

本文介绍一种简单的控制台工具 JSpark,该工具用于在 Spark 群集上使用 JDBC 执行 SQL 查询,以 CSV、JSON、XML、文本和 HTML 格式将远程表转储到本地磁盘。This article introduces JSpark, a simple console tool for executing SQL queries using JDBC on Spark clusters to dump remote tables to local disk in CSV, JSON, XML, Text, and HTML format. 例如:For example:

java -Dconfig.file=mycluster.conf -jar jspark.jar -q "select id, type, priority, status from tickets limit 5"

返回:returns:

+----+--------+--------+------+
|  id|type    |priority|status|
+----+--------+--------+------+
|9120|problem |urgent  |closed|
|9121|question|normal  |hold  |
|9122|incident|normal  |closed|
|9123|question|normal  |open  |
|9124|incident|normal  |solved|
+----+--------+--------+------+

JSpark GitHub 存储库中提供了使用说明、示例用法、源代码以及构建好的 JAR 的链接。Instructions for use, example usage, source code, and a link to the assembled JAR is available at the JSpark GitHub repo.

你可以使用实参或配置文件(例如 mycluster)指定 JDBC 连接的形参。You can specify the parameters of JDBC connection using arguments or using a config file, for example: mycluster.conf.

若要检查 JDBC 连接或对其进行故障排除,请下载 fat JAR jspark.jar,并将其作为常规 JAR 启动。To check or troubleshoot JDBC connections, download the fat JAR jspark.jar and launch it as a regular JAR. 它包括 hive-jdbc 1.2.1 和所有必需的依赖项。It includes hive-jdbc 1.2.1 and all required dependencies.