示例数据集

Azure Databricks 提供各种示例数据集,这些数据集由第三方提供给用户在 Azure Databricks 工作区中使用。

Unity Catalog 数据集

Unity Catalog 提供对 samples 目录中的许多示例数据集的访问。 可以在目录资源管理器 UI 中查看这些数据集,并使用 <catalog-name>.<schema-name>.<table-name> 模式在笔记本SQL 编辑器中直接引用它们。

nyctaxi 架构(也称为数据库)包含表 trips,其中包含有关如何在纽约市乘坐出租车的详细信息。 以下语句返回此表中的前 10 条记录:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch 架构包含 TPC-H 基准中的数据。 若要列出此架构中的表,请运行:

SHOW TABLES IN samples.tpch

CSV 格式的第三方示例数据集

Azure Databricks 的内置工具可将第三方示例数据集作为逗号分隔值 (CSV) 文件快速上传到 Azure Databricks 工作区。 一些常用的第三方示例数据集以 CSV 格式提供:

示例数据集 将示例数据集下载为 CSV 文件…
Squirrel Census 在 Data 网页中,单击 Park Data、
Squirrel Data 或 Stories 。
OWID 数据集集合 在 GitHub 存储库中,单击“数据集”文件夹。 单击包含目标数据集的子文件夹,然后单击数据集的 CSV 文件。
Data.gov CSV 数据集 在搜索结果网页上,单击目标搜索结果,然后在 CSV 图标旁边单击“下载”。
Diamonds(需要 Kaggle 帐户) 在数据集网页的“数据”选项卡中,单击 diamonds.csv 旁边的下载图标。
NYC Taxi Trip Duration(需要 Kaggle 帐户) 在数据集网页的“数据”选项卡中,单击 sample_submission.zip 旁边的
下载图标。 若要查找数据集的 CSV 文件,请提取下载的 ZIP 文件的内容。

若要在 Azure Databricks 工作区中使用第三方示例数据集,请执行以下操作:

  1. 按照第三方的说明将数据集以 CSV 文件格式下载到本地计算机。
  2. 从本地计算机将 CSV 文件上传到 Azure Databricks 工作区。
  3. 若要处理导入的数据,请使用 Databricks SQL 查询数据。 或者,可以使用笔记本将数据加载为数据帧

库中的第三方示例数据集

一些第三方在中包含示例数据集,例如 Python 包索引 (PyPI) 包或综合 R 存档网络 (CRAN) 包。 有关详细信息,请参阅库提供商的文档。

装载到 DBFS 的 Databricks 数据集 (databricks-datasets)

Azure Databricks 建议不要在已启用 Unity Catalog 的 Databricks 工作区中的大多数用例中使用 DBFS 和已装载云对象存储。 Azure Databricks 中提供了一些装载到 DBFS 的示例数据集

注意

Databricks 数据集的可用性和位置随时可能会更改,恕不另行通知。

浏览已装载到 DBFS 的 Databricks 数据集

要通过 Python、Scala 或 R 笔记本浏览这些文件,可以使用 Databricks Utilities (dbutils) 参考。 以下代码列出了所有可用的 Databricks 数据集。

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"