本页介绍如何在 Azure Databricks 中导入和导出笔记本,以及 Azure Databricks 支持的笔记本格式。
支持的笔记本格式
Databricks 可以导入和导出以下格式的笔记本:
- 源文件:一个具有
.scala、.py、.sql或.r扩展名的文件,其中仅包含源代码语句。 - HTML:一个具有
.html扩展名的 Azure Databricks 笔记本。 - Databricks
.dbc存档。 - IPython 笔记本:一个具有 扩展名的
.ipynb。 - RMarkdown:一个具有 扩展名的
.Rmd。
导入笔记本
可以从 URL 或文件导入外部笔记本。 还可以导入从 Azure Databricks 工作区批量导出的笔记本的 ZIP 存档。
单击
边栏中的工作区。 执行下列操作之一:
- 右键点击文件夹,然后选择“导入”。
- 若要在当前工作区文件夹的顶层导入笔记本,请点击右上角的 kebab 菜单,然后选择“导入”。
指定 URL 或浏览到一个包含受支持的外部格式的文件或一个从 Azure Databricks 工作区导出的笔记本的 ZIP 存档。
单击“导入”。
- 如果选择单个笔记本,它会导出到当前文件夹中。
- 如果选择 DBC 或 ZIP 存档,则会在当前文件夹中重新创建其文件夹结构并导入每个笔记本。
将文件转换为笔记本
如果工作区中的资产具有.ipynb扩展,或包含第一行注释中的字符串Databricks notebook source,并且具有以下扩展名之一,则工作区中的资产将标识为笔记本。 .py.r.scala.sql 更改这些条件的笔记本或文件的任何写入或重命名,也会更改笔记本或文件的类型。 例如,如果一个文件 myfile.txt myfile.txt,其中包含 Databricks 笔记本源代码 # Databricks notebook source 作为第一行,将该文件重命名为 myfile.py myfile.py,以将其转换为笔记本。
注意
在文件和笔记本类型之间进行转换可能会产生意外的结果,因为笔记本具有特定的 IPYNB 或源格式。 请参阅笔记本格式。
若要将 Python、SQL、Scala 和 R 脚本转换为单单元格笔记本,请将注释添加到文件的第一个单元格:
Python
# Databricks notebook source
SQL
-- Databricks notebook source
Scala(编程语言)
// Databricks notebook source
R
# Databricks notebook source
若要在脚本中定义单元格,请使用下面所示的特殊注释。 将脚本导入 Databricks 时,将创建由 COMMAND 行标记的单元格,如下所示。
Python
# COMMAND ----------
SQL
-- COMMAND ----------
Scala(编程语言)
// COMMAND ----------
R
# COMMAND ----------
导出笔记本
注意
如果你将笔记本导出为 HTML、IPython 笔记本 (.ipynb) 或存档 (DBC),且尚未清除命令输出,则输出将包含在导出中。
导出笔记本:
- 打开笔记本后,单击笔记本工具栏中的 “文件 ”,然后单击“ 导出...”。
- 从下拉菜单中选择导出文件类型。
- 如果选择了 IPython 笔记本、HTML 或 DBC 存档作为导出文件类型,则可以选择通过选中/取消选中 “包括输出”来包括单元格输出。
- 单击“ 导出”。
若要将工作区文件夹中的所有笔记本导出为 ZIP 存档,请执行以下作:
单击
边栏中的工作区。
右键单击文件夹,然后选择“下载为”。
选择下载格式:
- DBC 存档(仅笔记本):导出 Databricks 存档,这是一种包含元数据和笔记本命令输出的二进制格式。
- Zip - 源(仅限笔记本和文件):导出包含笔记本源文件的 ZIP 存档,该存档可以导入到 Azure Databricks 工作区中、用于 CI/CD 管道,或在每个笔记本的默认语言中查看为源文件。 不包含笔记本命令输出。
- Zip - HTML(仅笔记本):将笔记本以 HTML 格式导出为 ZIP 存档。 每个笔记本的 HTML 文件都可以导入到 Azure Databricks 工作区或以 HTML 格式查看。 包含笔记本命令输出。