다음을 통해 공유

展开和读取 Zip 压缩文件

可以使用 unzip Bash 命令展开 Zip(.zip) 压缩文件或文件目录。 使用 Azure Databricks %shmagic 命令可以执行任意 Bash 代码,包括 unzip 命令。

Apache Spark 提供用于与压缩的 Parquet 文件交互的本机编解码器。 Azure Databricks 写入的大多数 Parquet 文件都以 .snappy.parquet 结尾,表示它们使用 snappy 压缩。

下载并解压缩文件

用于 curl 下载压缩文件,然后 unzip 展开数据。 以下示例使用从 Internet 下载的 CSV 压缩文件。 请参阅从 Internet 下载数据

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

将文件移动到卷

现在,将展开的文件移动到 Unity 目录卷:

%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

在此示例中,下载的数据在第一行带有注释,在第二行带有标题。 移动和扩展数据后,请使用标准选项读取 CSV 文件,例如:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)