可以使用 unzip
Bash 命令展开 Zip(.zip
) 压缩文件或文件目录。 使用 Azure Databricks %sh
magic 命令可以执行任意 Bash 代码,包括 unzip
命令。
Apache Spark 提供用于与压缩的 Parquet 文件交互的本机编解码器。 Azure Databricks 写入的大多数 Parquet 文件都以 .snappy.parquet
结尾,表示它们使用 snappy 压缩。
下载并解压缩文件
用于 curl
下载压缩文件,然后 unzip
展开数据。 以下示例使用从 Internet 下载的 CSV 压缩文件。 请参阅从 Internet 下载数据。
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
将文件移动到卷
现在,将展开的文件移动到 Unity 目录卷:
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
在此示例中,下载的数据在第一行带有注释,在第二行带有标题。 移动和扩展数据后,请使用标准选项读取 CSV 文件,例如:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)