示例数据集

Azure Databricks 提供各种示例数据集,这些数据集由第三方提供给用户在 Azure Databricks 工作区中使用。

Unity Catalog 数据集

Unity Catalog 提供对 samples 目录中的许多示例数据集的访问。 可以在目录资源管理器 UI 中查看这些数据集,并使用 <catalog-name>.<schema-name>.<table-name> 模式在笔记本SQL 编辑器中直接引用它们。

nyctaxi 架构(也称为数据库)包含表 trips,其中包含有关如何在纽约市乘坐出租车的详细信息。 以下语句返回此表中的前 10 条记录:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch 架构包含 TPC-H 基准中的数据。 若要列出此架构中的表,请运行:

SHOW TABLES IN samples.tpch

Databricks 数据集 (databricks-datasets)

Azure Databricks 包含各种已装载到 DBFS 的示例数据集。

注意

Databricks 数据集的可用性和位置随时可能会更改,恕不另行通知。

浏览 Databricks 数据集

要通过 Python、Scala 或 R 笔记本浏览这些文件,可以使用 Databricks Utilities (dbutils) 参考。 以下代码列出了所有可用的 Databricks 数据集。

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

获取有关 Databricks 数据集的信息

若要获取有关 Databricks 数据集的详细信息,可以使用本地文件 API 通过 Python、R 或 Scala 笔记本来输出数据集 README(如果有),如本代码示例所示。

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

创建基于 Databricks 数据集的表

此代码示例演示了如何在 SQL 编辑器中使用 SQL,或如何使用 SQL、Python、Scala 或 R 笔记本创建基于 Databricks 数据集的表:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

CSV 格式的第三方示例数据集

Azure Databricks 的内置工具可将第三方示例数据集作为逗号分隔值 (CSV) 文件快速上传到 Azure Databricks 工作区。 一些常用的第三方示例数据集以 CSV 格式提供:

示例数据集 将示例数据集下载为 CSV 文件…
Squirrel Census 在 Data 网页中,单击 Park Data、
Squirrel Data 或 Stories 。
OWID 数据集集合 在 GitHub 存储库中,单击“数据集”文件夹。 单击包含目标数据集的子文件夹,然后单击数据集的 CSV 文件。
Data.gov CSV 数据集 在搜索结果网页上,单击目标搜索结果,然后在 CSV 图标旁边单击“下载”。
Diamonds(需要 Kaggle 帐户) 在数据集网页的“数据”选项卡中,单击 diamonds.csv 旁边的下载图标。
NYC Taxi Trip Duration(需要 Kaggle 帐户) 在数据集网页的“数据”选项卡中,单击 sample_submission.zip 旁边的
下载图标。 若要查找数据集的 CSV 文件,请提取下载的 ZIP 文件的内容。
UFO Sightings(需要 data.world 帐户) 在数据集的网页中,单击
nuforc_reports.csv 旁边的下载图标。

若要在 Azure Databricks 工作区中使用第三方示例数据集,请执行以下操作:

  1. 按照第三方的说明将数据集以 CSV 文件格式下载到本地计算机。
  2. 从本地计算机将 CSV 文件上传到 Azure Databricks 工作区。
  3. 若要处理导入的数据,请使用 Databricks SQL 查询数据。 或者,可以使用笔记本将数据加载为数据帧

库中的第三方示例数据集

一些第三方在中包含示例数据集,例如 Python 包索引 (PyPI) 包或综合 R 存档网络 (CRAN) 包。 有关详细信息,请参阅库提供商的文档。