LZO 压缩文件

由于许可限制,默认情况下,Azure Databricks 群集上不提供 LZO 压缩编解码器。 若要读取 LZO 压缩文件,必须在启动时使用 init 脚本在群集上安装编解码器。

笔记本示例:初始化 LZO 压缩文件

以下笔记本:

  • 生成 LZO 编解码器。
  • 创建一个可执行以下操作的 init 脚本:
    • 安装 LZO 压缩库和 lzop 命令,并将 LZO 编解码器复制到正确的类路径。
    • 将 Spark 配置为使用 LZO 压缩编解码器。

初始化 LZO 压缩文件的笔记本

获取笔记本

笔记本示例:读取 LZO 压缩文件

以下笔记本使用由 init 脚本安装的编解码器读取 LZO 压缩文件:

读取 LZO 压缩文件的笔记本

获取笔记本