数据概述 Data overview

本文介绍如何使用 UI 将数据导入 Azure Databricks,使用 Spark 和本地 API 读取导入的数据,以及如何使用 Databricks 文件系统 (DBFS) 命令修改导入的数据。This article describes how to import data into Azure Databricks using the UI, read imported data using the Spark and local APIs, and modify imported data using Databricks File System (DBFS) commands.

导入数据Import data

如果本地计算机上有要使用 Azure Databricks 进行分析的小型数据文件,可使用 UI 将其导入 DBFS。If you have small data files on your local machine that you want to analyze with Azure Databricks, you can import them to DBFS using the UI.

备注

管理员用户可能会禁用此功能。This feature may be disabled by admin users. 若要启用或禁用此设置,请参阅管理数据上传To enable or disable this setting, see Manage data upload.

可通过两种方法,使用 UI 将数据上传到 DBFS:There are two ways to upload data to DBFS with the UI:

  • 上传数据 UI 中将文件上传到 FileStore。Upload files to the FileStore in the Upload Data UI.

    上传数据Upload data

  • 使用创建表 UI 将数据上传到,也可通过登陆页面上的“导入和浏览数据”框访问数据。Upload data to a table with the Create table UI, which is also accessible via the Import & Explore Data box on the landing page.

    导入和浏览数据Import and explore data

使用这些方法导入到 DBFS 的文件存储在 FileStore 中。Files imported to DBFS using these methods are stored in FileStore.

对于生产环境,建议使用 DBFS CLIDBFS APIDatabricks 文件系统实用程序 (dbutils.fs) 将文件显式上传到 DBFS。For production environments, we recommend that you explicitly upload files into DBFS using the DBFS CLI, DBFS API, Databricks file system utilities (dbutils.fs).

还可使用各种数据源来访问数据。You can also use a wide variety of data sources to access data.

使用 Spark API 读取群集节点上的数据Read data on cluster nodes using Spark APIs

使用 Spark API 将导入到 DBFS 的数据读取到 Apache Spark DataFrames 中。You read data imported to DBFS into Apache Spark DataFrames using Spark APIs. 例如,如果导入 CSV 文件,可使用以下示例之一读取数据。For example, if you import a CSV file, you can read the data using one of these examples.

提示

为了简化访问,建议创建一个表。For easier access, we recommend that you create a table. 有关详细信息,请参阅数据库和表See Databases and tables for more information.

PythonPython

sparkDF = spark.read.csv('/FileStore/tables/state_income-9f7c5.csv', header="true", inferSchema="true")

RR

sparkDF <- read.df(source = "csv", path = "/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema = "true")

ScalaScala

val sparkDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/FileStore/tables/state_income-9f7c5.csv")

使用本地 API 读取群集节点上的数据Read data on cluster nodes using local APIs

还可使用本地文件 API 在 Spark 驱动程序节点上运行的程序中读取导入到 DBFS 的数据。You can also read data imported to DBFS in programs running on the Spark driver node using local file APIs. 例如: 。For example:

PythonPython

pandas_df = pd.read_csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header='infer')

RR

df = read.csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header = TRUE)

修改已上传的数据Modify uploaded data

不能直接在 Azure Databricks 中编辑导入的数据,但可使用 Spark APIDBFS CLIDBFS APIDatabricks 文件系统实用程序 (dbutils.fs) 覆盖数据文件。You cannot edit imported data directly within Azure Databricks, but you can overwrite a data file using Spark APIs, the DBFS CLI, DBFS API, and Databricks file system utilities (dbutils.fs).

若要从 DBFS 删除数据,请使用上述 API 和工具。To delete data from DBFS, use the same APIs and tools. 例如,可使用 Databricks 实用程序命令 dbutils.fs.rmFor example, you can use the Databricks Utilities command dbutils.fs.rm:

dbutils.fs.rm("dbfs:/FileStore/tables/state_income-9f7c5.csv", true)

警告

无法恢复已删除的数据。Deleted data cannot be recovered.