示例数据集

Azure Databricks 提供各种示例数据集，这些数据集由第三方提供给用户在 Azure Databricks 工作区中使用。

Unity Catalog 数据集

Unity Catalog 提供对 samples 目录中的许多示例数据集的访问。可以在目录资源管理器 UI 中查看这些数据集，并使用模式在笔记本或 <catalog-name>.<schema-name>.<table-name>中直接引用它们。

nyctaxi 架构（也称为数据库）包含表 trips，其中包含有关如何在纽约市乘坐出租车的详细信息。以下语句返回此表中的前 10 条记录：

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch 架构包含 TPC-H 基准中的数据。若要列出此架构中的表，请运行：

SHOW TABLES IN samples.tpch

架构 tpcds_sf1 包含来自TPC-DS 基准的数据。若要列出此架构中的表，请运行：

SHOW TABLES IN samples.tpcds_sf1;

有关如何使用此数据集评估系统性能的更多指南，请参阅使用 TPC-DS 示例数据集来评估系统性能。

Azure Databricks 的内置工具可将第三方示例数据集作为逗号分隔值 (CSV) 文件快速上传到 Azure Databricks 工作区。一些常用的第三方示例数据集以 CSV 格式提供：

示例数据集	将示例数据集下载为 CSV 文件…
Squirrel Census	在 Data 网页中，单击 Park Data、 Squirrel Data 或 Stories 。
OWID 数据集集合	在 GitHub 存储库中，单击“数据集”文件夹。单击包含目标数据集的子文件夹，然后单击数据集的 CSV 文件。
Data.gov CSV 数据集	在搜索结果网页上，单击目标搜索结果，然后在 CSV 图标旁边单击“下载”。
Diamonds（需要 Kaggle 帐户）	在数据集网页的“数据”选项卡中，单击 diamonds.csv 旁边的下载图标。
NYC Taxi Trip Duration（需要 Kaggle 帐户）	在数据集网页的“数据”选项卡中，单击 sample_submission.zip 旁边的下载图标。若要查找数据集的 CSV 文件，请提取下载的 ZIP 文件的内容。

若要在 Azure Databricks 工作区中使用第三方示例数据集，请执行以下操作：

一些第三方在库中包含示例数据集，例如 Python 包索引 (PyPI) 包或综合 R 存档网络 (CRAN) 包。有关详细信息，请参阅库提供商的文档。

Azure Databricks 建议不要在已启用 Unity Catalog 的 Databricks 工作区中的大多数用例中使用 DBFS 和已装载云对象存储。 Azure Databricks 中提供了一些装载到 DBFS 的示例数据集

注意

Databricks 数据集的可用性和位置随时可能会更改，恕不另行通知。

若要从 Python、Scala 或 R 笔记本浏览这些文件，可以使用 Databricks Utilities （dbutils）引用。以下代码列出了所有可用的 Databricks 数据集。

display(dbutils.fs.ls('/databricks-datasets'))

display(dbutils.fs.ls("/databricks-datasets"))

%fs ls "/databricks-datasets"