开始使用 COPY INTO 加载数据

通过 COPY INTO SQL 命令，你可以将文件位置中的数据加载到 Delta 表中。这是一个可重用和幂等的操作。跳过已加载的源位置中的文件。

COPY INTO 提供这些功能：

云存储中可以轻松配置的文件或文件夹筛选器，包括 S3、ADLS、ABFS、GCS 和 Unity Catalog 数据库卷册。
支持多种源文件格式：CSV、JSON、XML、 Avro、 ORC、 Parquet、文本和二进制文件。
默认情况下，恰好一次（幂等）文件处理。
目标表架构推理、映射、合并和演变。

注意

为了获得更具可缩放且可靠的文件引入体验，Databricks 建议 SQL 用户使用流式处理表。有关详细信息，请参阅流式处理表。

在您开始之前

帐户管理员必须按照配置数据访问以进行引入中的步骤来配置对云对象存储中的数据的访问权限，然后用户才能使用 COPY INTO 加载数据。

示例：将数据加载到无架构 Delta Lake 表中

注意

此功能需要 Databricks Runtime 11.3 LTS 及更高版本。

可以创建空占位符 Delta 表，以便通过在命令中设置为 /> 来推断架构：

CREATE TABLE IF NOT EXISTS my_table
[COMMENT <table-description>]
[TBLPROPERTIES (<table-properties>)];

COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');

SQL 语句是幂等的，可以按计划执行，将数据准确地导入 Delta 表中一次。

注意

在COPY INTO之外，空 Delta 表无法使用。 INSERT INTO 和 MERGE INTO 不支持将数据写入无架构 Delta 表。使用 COPY INTO 将数据插入到表中后，该表将变为可查询。

请参阅为 COPY INTO 创建目标表。

示例：设置架构并将数据加载到 Delta Lake 表中

以下示例创建 Delta 表，并使用 COPY INTO SQL 命令将 Databricks 数据集中的示例数据加载到表中。可以从附加到 Azure Databricks 群集的笔记本中运行示例 Python、R、Scala 或 SQL 代码。还可以从与 Databricks SQL 中的 SQL 仓库关联的查询中运行 SQL 代码。

SQL

DROP TABLE IF EXISTS default.loan_risks_upload;

CREATE TABLE default.loan_risks_upload (
  loan_id BIGINT,
  funded_amnt INT,
  paid_amnt DOUBLE,
  addr_state STRING
);

COPY INTO default.loan_risks_upload
FROM '/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet'
FILEFORMAT = PARQUET;

SELECT * FROM default.loan_risks_upload;

-- Result:
-- +---------+-------------+-----------+------------+
-- | loan_id | funded_amnt | paid_amnt | addr_state |
-- +=========+=============+===========+============+
-- | 0       | 1000        | 182.22    | CA         |
-- +---------+-------------+-----------+------------+
-- | 1       | 1000        | 361.19    | WA         |
-- +---------+-------------+-----------+------------+
-- | 2       | 1000        | 176.26    | TX         |
-- +---------+-------------+-----------+------------+
-- ...

Python

table_name = 'default.loan_risks_upload'
source_data = '/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet'
source_format = 'PARQUET'

spark.sql("DROP TABLE IF EXISTS " + table_name)

spark.sql("CREATE TABLE " + table_name + " (" \
  "loan_id BIGINT, " + \
  "funded_amnt INT, " + \
  "paid_amnt DOUBLE, " + \
  "addr_state STRING)"
)

spark.sql("COPY INTO " + table_name + \
  " FROM '" + source_data + "'" + \
  " FILEFORMAT = " + source_format
)

loan_risks_upload_data = spark.sql("SELECT * FROM " + table_name)

display(loan_risks_upload_data)

'''
Result:
+---------+-------------+-----------+------------+
| loan_id | funded_amnt | paid_amnt | addr_state |
+=========+=============+===========+============+
| 0       | 1000        | 182.22    | CA         |
+---------+-------------+-----------+------------+
| 1       | 1000        | 361.19    | WA         |
+---------+-------------+-----------+------------+
| 2       | 1000        | 176.26    | TX         |
+---------+-------------+-----------+------------+
...
'''

R

library(SparkR)
sparkR.session()

table_name = "default.loan_risks_upload"
source_data = "/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet"
source_format = "PARQUET"

sql(paste("DROP TABLE IF EXISTS ", table_name, sep = ""))

sql(paste("CREATE TABLE ", table_name, " (",
  "loan_id BIGINT, ",
  "funded_amnt INT, ",
  "paid_amnt DOUBLE, ",
  "addr_state STRING)",
  sep = ""
))

sql(paste("COPY INTO ", table_name,
  " FROM '", source_data, "'",
  " FILEFORMAT = ", source_format,
  sep = ""
))

loan_risks_upload_data = tableToDF(table_name)

display(loan_risks_upload_data)

# Result:
# +---------+-------------+-----------+------------+
# | loan_id | funded_amnt | paid_amnt | addr_state |
# +=========+=============+===========+============+
# | 0       | 1000        | 182.22    | CA         |
# +---------+-------------+-----------+------------+
# | 1       | 1000        | 361.19    | WA         |
# +---------+-------------+-----------+------------+
# | 2       | 1000        | 176.26    | TX         |
# +---------+-------------+-----------+------------+
# ...

Scala(编程语言)

val table_name = "default.loan_risks_upload"
val source_data = "/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet"
val source_format = "PARQUET"

spark.sql("DROP TABLE IF EXISTS " + table_name)

spark.sql("CREATE TABLE " + table_name + " (" +
  "loan_id BIGINT, " +
  "funded_amnt INT, " +
  "paid_amnt DOUBLE, " +
  "addr_state STRING)"
)

spark.sql("COPY INTO " + table_name +
  " FROM '" + source_data + "'" +
  " FILEFORMAT = " + source_format
)

val loan_risks_upload_data = spark.table(table_name)

display(loan_risks_upload_data)

/*
Result:
+---------+-------------+-----------+------------+
| loan_id | funded_amnt | paid_amnt | addr_state |
+=========+=============+===========+============+
| 0       | 1000        | 182.22    | CA         |
+---------+-------------+-----------+------------+
| 1       | 1000        | 361.19    | WA         |
+---------+-------------+-----------+------------+
| 2       | 1000        | 176.26    | TX         |
+---------+-------------+-----------+------------+
...
*/

若要清理，请运行以下代码来删除表。

Python

spark.sql("DROP TABLE " + table_name)

R

sql(paste("DROP TABLE ", table_name, sep = ""))

Scala(编程语言)

spark.sql("DROP TABLE " + table_name)

SQL

DROP TABLE default.loan_risks_upload

清除元数据文件

可以运行 VACUUM 来清理 Databricks Runtime 15.2 及更高版本中由 COPY INTO 创建的未引用的元数据文件。

参考

Databricks Runtime 7.x 及更高版本： COPY INTO

了解详细信息

使用 COPY INTO 和 Unity Catalog 卷或外部位置加载数据
使用 COPY INTO 通过服务主体加载数据
有关常见使用模式，包括针对同一 Delta 表的多个COPY INTO操作示例，请参阅使用COPY INTO的常见数据加载模式。
若要使用 VARIANT 类型引入半结构化数据，请参阅“与变体一起使用COPY INTO”。

Last updated on 2026-03-25

通过

开始使用 COPY INTO 加载数据

在您开始之前

示例：将数据加载到无架构 Delta Lake 表中

示例：设置架构并将数据加载到 Delta Lake 表中

SQL

Python

R

Scala(编程语言)

Python

R

Scala(编程语言)

SQL

清除元数据文件

参考

了解详细信息

其他资源