`read_files` 表值函数

适用于：Databricks SQL 勾选标记为“是” Databricks Runtime 13.3 LTS 及更高版本check marked yes

读取提供位置下方的文件，并以表格形式返回数据。

支持读取 JSON、CSV、XML、TEXT、BINARYFILE、PARQUET、AVRO 和 ORC 文件格式。可以自动检测文件格式，并跨所有文件推断出统一的架构。

语法

read_files(path [, option_key => option_value ] [...])

参数

此函数需要选项键的命名参数调用。

path：一种 STRING，其中包含数据位置的 URI。支持从Azure Data Lake Storage读取（'abfss://'）。可以包含 glob。有关更多详细信息，请参阅文件查找。
option_key：要配置的选项的名称。需要使用反撇号（) for options that contain dots (.`）。
option_value：将选项设置为常量表达式。接受文本和标量函数。

包含给定 path文件读取的数据的表。架构取决于文件格式：

BINARYFILE：返回固定架构：

列	类型	说明
`path`	`STRING`	文件的完整路径。
`modificationTime`	`TIMESTAMP`	文件的上次修改时间。
`length`	`LONG`	以字节为单位的文件的大小。
`content`	`BINARY`	文件的二进制内容。用于 `* EXCEPT (content)` 在查询文件元数据时排除二进制内容。

TEXT：返回具有单个 value （STRING）列的固定架构。
所有其他格式（JSON、CSV、XML、PARQUET、AVRO、ORC）：架构是从文件内容推断的，或使用此选项显式 schema 提供。

`_metadata` 列

read_files 公开具有文件级元数据的 _metadata 列。此列不包含在结果中 SELECT * ，必须显式选择。包含以下字段：

领域	类型	说明
`file_path`	`STRING`	源文件的完整路径。
`file_name`	`STRING`	源文件的名称。
`file_size`	`LONG`	源文件的大小，以字节为单位。
`file_modification_time`	`TIMESTAMP`	源文件的上次修改时间。
`file_block_start`	`LONG`	正在读取的文件块的开始。
`file_block_length`	`LONG`	要读取的文件块的长度。

若要包含在 _metadata 结果中，请显式选择它：

SELECT * EXCEPT (content), _metadata
FROM read_files('/Volumes/my_catalog/my_schema/my_volume', format => 'binaryFile');

文件发现

read_files 可以读取提供的目录下的单个文件或多个文件。 read_files 以递归方式发现提供的目录下的所有文件，除非提供了 glob 指示 read_files 递归到特定的目录模式中。

使用 glob 模式筛选目录或文件

在路径中提供 Glob 模式时，可用于筛选目录和文件。

模式	说明
`?`	匹配任何单一字符
`*`	与零个或多个字符匹配
`[abc]`	匹配字符集中的单个字符 {a,b,c}。
`[a-z]`	匹配字符范围 {a...z} 中的单个字符。
`[^a]`	匹配不是来自字符集或范围 {a} 的单个字符。请注意，`^` 字符必须立即出现在左括号的右侧。
`{ab,cd}`	匹配字符串集 {ab, cd} 中的字符串。
`{ab,c{de, fh}}`	匹配字符串集 {ab, cde, cfh} 中的字符串。

发现具有 glob 的文件后，read_files 使用“自动加载器”严格的 globber。使用“useStrictGlobber”选项来配置。如禁用严格的 globber，会删除末尾的斜杠 (/)，而 /*/ 等星星图案可以扩展到发现多个目录中。请参阅以下示例，查看它们行为之间的差异。

模式	文件路径	已禁用严格 globber	已启用严格 globber
`/a/b`	`/a/b/c/file.txt`	是的	是的
`/a/b`	`/a/b_dir/c/file.txt`	不	不
`/a/b`	`/a/b.txt`	不	不
`/a/b/`	`/a/b.txt`	不	不
`/a/*/c/`	`/a/b/c/file.txt`	是的	是的
`/a/*/c/`	`/a/b/c/d/file.txt`	是的	是的
`/a/*/d/`	`/a/b/c/d/file.txt`	是的	不
`/a/*/c/`	`/a/b/x/y/c/file.txt`	是的	不
`/a/*/c`	`/a/b/c_file.txt`	是的	不
`/a/*/c/`	`/a/b/c_file.txt`	是的	不
`/a/*/c`	`/a/b/cookie/file.txt`	是的	不
`/a/b*`	`/a/b.txt`	是的	是的
`/a/b*`	`/a/b/file.txt`	是的	是的
`/a/{0.txt,1.txt}`	`/a/0.txt`	是的	是的
`/a/*/{0.txt,1.txt}`	`/a/0.txt`	不	不
`/a/b/[cde-h]/i/`	`/a/b/c/i/file.txt`	是的	是的

架构推理

可以使用“read_files”选项，将文件的架构明确地提供给 schema。如果未提供架构，则 read_files 会尝试在发现的文件中推出统一的架构。除非使用 LIMIT 语句，否则这需要读取所有文件。即使在使用 LIMIT 查询时，也可能要读取比所需更多的文件数才能返回更具代表性的数据架构。如果用户未提供，则 Databricks 会自动在笔记本和 SQL 编辑器中为 LIMIT 查询添加 SELECT 语句。

“schemaHints”选项可用于修复推断出的架构的子集。请参阅使用架构提示替代架构推理，以获取更多详细信息。

默认情况下提供 rescuedDataColumn 来补救与架构不匹配的任何数据。有关更详细的信息，请参阅什么是已恢复的数据列。可以通过设置选项“rescuedDataColumn”来删除 schemaEvolutionMode => 'none'。

分区架构推理

read_files如果文件存储在 Hive 样式的分区目录下，则还可以推断分区列，即 /column_name=column_value/。如果提供了 schema，则发现的分区列将使用 schema 中提供的类型。如果分区列不是所提供的 schema 中的一部分，则推理出的分区列将被忽略。

如果分区架构和数据列中同时存在某个列，则会使用从分区值而非数据值中读取到的值。若要忽略来自目录的值并使用数据列，可以使用“partitionColumns”选项以逗号分隔列表的形式提供分区列的列表。

此外，“partitionColumns”选项还可用于指示 read_files 在最终推理出的架构中包含哪些发现的列。提供空的字符串会忽略所有分区列。

还可以提供“schemaHints”选项来覆盖推理出的某个分区列的架构。

TEXT 和 BINARYFILE 具有固定的架构，不过 read_files 在条件允许时也会尝试推出这些格式的分区。

云存储身份验证

read_files 从 Unity 目录外部位置或 Unity 目录卷（托管卷和外部卷）读取文件。必须具有 READ FILES 对外部位置的权限，或 READ VOLUME 对包含要读取的文件的卷具有特权。请参阅使用 Unity 目录或什么是 Unity 目录卷连接到云对象存储？

流式处理表中的使用情况

可在流式处理表中使用 read_files，将文件引入 Delta 湖中。用在流式处理表查询中时，read_files 利用“自动加载器”。关键字“STREAM”必须与 read_files 一起使用。有关更多详细信息，请参阅什么是自动加载程序。

如果用于流式处理查询，read_files 将使用一个数据示例来引入架构，并可以在其处理更多数据时改进架构。有关详细信息，请参阅配置自动加载程序中的架构推理和演变。

基本选项

选项
`format` 类型：`String` 源路径中的数据文件格式。如果未提供，则自动推断。允许的值包括： `avro` `binaryFile` `csv` `json` `orc` `parquet` `text` `xml` 默认值：无
`schema` 类型：`String` 要读取的文件的架构。例如 `'id int, ts timestamp, event string'`，使用 DDL 格式提供架构字符串。如果未提供架构， `read_files` 则尝试跨发现的文件推断统一架构。默认值：无
`inferColumnTypes` 类型：`Boolean` 在利用架构推理时是否推断确切的列类型。默认情况下，在推断 JSON 和 CSV 数据集时，会推断列。有关更多详细信息，请参阅架构推理。请注意，这与默认的自动加载器相反。默认值：30`true`
`partitionColumns` 类型：`String` 要从文件目录结构推断出的 Hive 样式分区列的逗号分隔列表。 Hive 样式的分区列是由等号组合的键值对，例如 `<base-path>/a=x/b=1/c=y/file.format`。在此示例中，分区列为 `a`、`b` 和 `c`。默认情况下，如果你使用的是架构推理并提供可从中加载数据的 `<base-path>`，则这些列将自动添加到架构中。如果提供架构，则自动加载程序会期望这些列包含在架构中。如果你不希望这些列成为架构的一部分，则可以指定 `""` 以忽略这些列。此外，当你希望推断出复杂目录结构中的文件路径时，可以使用此选项，如下面的示例所示： `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` 如果将 `cloudFiles.partitionColumns` 指定为 `year,month,day`，则针对 `year=2022`，将返回 `file1.csv`，但 `month` 和 `day` 列将为 `null`。对于 `month` 和 `day`，将正确分析 `file2.csv` 和 `file3.csv`。默认值：无
`schemaHints` 类型：`String` 在架构推理期间向自动加载程序提供的架构信息。有关更多详细信息，请参阅架构提示。默认值：无
`useStrictGlobber` 类型：`Boolean` 是否使用与 Apache Spark 中其他文件源的默认通配行为相匹配的严格通配符。有关更多详细信息，请参阅常见数据加载模式。在 Databricks Runtime 12.2 LTS 及更高版本中可用。请注意，这与“自动加载器”的默认值相反。默认值：30`true`

特定于格式的选项

有关特定于每种文件格式的选项（JSON、CSV、XML、Parquet、Avro、文本、ORC 和二进制），请参阅 DataFrameReader 选项。

流式处理选项

当在read_files或流式处理查询中使用时，会应用这些选项。

选项
`allowOverwrites` 类型：`Boolean` 是否重新处理发现后已修改的文件。如果自上次成功刷新查询启动时间起，文件已修改，则会在刷新过程中处理文件的最新可用版本。默认值：30`false`
`includeExistingFiles` 类型：`Boolean` 是包含流式处理输入路径中的现有文件，还是仅处理初始设置后到达的新文件。仅在首次启动流时会评估此选项。在重启流后更改此选项不起作用。默认值：30`true`
`maxBytesPerTrigger` 类型：`Byte String` 要在每个触发器中处理的最大新字节数。你可以指定一个字节字符串（例如 `10g`），将每个微批限制为 10 GB 数据。这个一个软性最大值。如果每个文件为 3 GB，Azure Databricks处理微分块中的 12 GB。与 `maxFilesPerTrigger` 一起使用时，Azure Databricks最多使用 `maxFilesPerTrigger` 或 `maxBytesPerTrigger`（以先达到者为准）。注意：对于在无服务器 SQL 仓库中创建的流式处理表，不得将此选项和 `maxFilesPerTrigger` 设置为使用动态许可控制，该控制按工作负载大小和无服务器计算资源进行缩放，从而为你提供最佳延迟和性能。默认值：无
`maxFilesPerTrigger` 类型：`Integer` 要在每个触发器中处理的最大新文件数。与 `maxBytesPerTrigger` 一起使用时，Azure Databricks最多使用 `maxFilesPerTrigger` 或 `maxBytesPerTrigger`（以先达到者为准）。注意：对于在无服务器 SQL 仓库中创建的流式处理表，不得将此选项和 `maxBytesPerTrigger` 设置为使用动态许可控制，该控制按工作负载大小和无服务器计算资源进行缩放，从而为你提供最佳延迟和性能。默认值：1000
`schemaEvolutionMode` 类型：`String` 在数据中发现新列时架构演变的模式。默认情况下，在推断 JSON 数据集时，将列推断为字符串。有关更多详细信息，请参阅架构演变。此选项不适用于 `text` 和 `binaryFile` 文件。默认值：在未提供架构时为 `"addNewColumns"`。否则为 `"none"`。
`schemaLocation` 类型：`String` 存储推断出的架构和后续更改的位置。有关更多详细信息，请参阅架构推理。在流式处理表查询中使用时，不需要架构位置。默认值：无

示例

-- Reads the files available in the given path. Auto-detects the format and schema of the data.
> SELECT * FROM read_files('abfss://container@storageAccount.dfs.core.chinacloudapi.cn/base/path');

-- Reads the headerless CSV files in the given path with the provided schema.
> SELECT * FROM read_files(
    's3://bucket/path',
    format => 'csv',
    schema => 'id int, ts timestamp, event string');

-- Infers the schema of CSV files with headers. Because the schema is not provided,
-- the CSV files are assumed to have headers.
> SELECT * FROM read_files(
    's3://bucket/path',
    format => 'csv')

-- Reads files that have a csv suffix.
> SELECT * FROM read_files('s3://bucket/path/*.csv')

-- Reads a single JSON file
> SELECT * FROM read_files(
    'abfss://container@storageAccount.dfs.core.chinacloudapi.cn/path/single.json')

-- Reads JSON files and overrides the data type of the column `id` to integer.
> SELECT * FROM read_files(
    's3://bucket/path',
    format => 'json',
    schemaHints => 'id int')

-- Reads files that have been uploaded or modified yesterday.
> SELECT * FROM read_files(
    'gs://my-bucket/avroData',
    modifiedAfter => date_sub(current_date(), 1),
    modifiedBefore => current_date())

-- Creates a Delta table and stores the source file path as part of the data
> CREATE TABLE my_avro_data
  AS SELECT *, _metadata.file_path
  FROM read_files('gs://my-bucket/avroData')

-- Creates a streaming table that processes files that appear only after the table's creation.
-- The table will most likely be empty (if there's no clock skew) after being first created,
-- and future refreshes will bring new data in.
> CREATE OR REFRESH STREAMING TABLE avro_data
  AS SELECT * FROM STREAM read_files('gs://my-bucket/avroData', includeExistingFiles => false);

使用非结构化文件

以下示例使用 BINARYFILE 格式读取和筛选存储在 Unity 目录卷中的非结构化文件，并结合 read_files AI 函数来处理文件内容。

列出卷中的所有文件：用于 * EXCEPT (content) 返回文件元数据而不加载二进制内容，并选择 _metadata 显式包含文件级元数据字段。

SELECT
  * EXCEPT (content),
  _metadata
FROM read_files(
  '/Volumes/<catalog>/<schema>/<volume>',
  format => 'binaryFile'
);

列出按大小筛选的图像文件：用于 fileNamePattern 定位特定图像文件类型并筛选 _metadata.file_size 以仅返回给定大小范围内的文件。

SELECT
  * EXCEPT (content),
  _metadata
FROM read_files(
  '/Volumes/my_catalog/my_schema/my_volume',
  format => 'binaryFile',
  fileNamePattern => '*.{jpg,jpeg,png,JPG,JPEG,PNG}'
)
WHERE _metadata.file_size BETWEEN 20000 AND 1000000;

列出过去一天修改的 PDF 文件：用于 fileNamePattern 定位 PDF 文件并筛选 modificationTime 以仅返回过去一天内更改的文件。

SELECT
  * EXCEPT (content),
  _metadata
FROM read_files(
  '/Volumes/my_catalog/my_schema/my_volume',
  format => 'binaryFile',
  fileNamePattern => '*.{pdf,PDF}'
)
WHERE modificationTime >= current_timestamp() - INTERVAL 1 DAY;

对图像文件运行 AI 函数：用于 ai_query 处理从云存储路径读取的图像文件。筛选字段 _metadata 以定位特定文件。

SELECT
  path AS file_path,
  ai_query(
    'databricks-llama-4-maverick',
    'Describe this image in ten words or less: ',
    files => content
  ) AS result
FROM read_files(
  's3://my-s3-bucket/path/to/images/',
  format => 'binaryFile',
  fileNamePattern => '*.{jpg,jpeg,png,JPG,JPEG,PNG}'
)
WHERE _metadata.file_size < 1000000
  AND _metadata.file_name LIKE '%robots%';

分析与文件名模式匹配的文档：用于 ai_parse_document 从 PDF 和图像中提取结构化内容。按 _metadata.file_name 目标筛选特定文件。

SELECT
  path AS file_path,
  ai_parse_document(
    content,
    map('version', '2.0')
  ) AS result
FROM read_files(
  '/Volumes/main/public/my_files/',
  format => 'binaryFile',
  fileNamePattern => '*.{jpg,jpeg,pdf,png}'
)
WHERE _metadata.file_name ILIKE '%receipt%';

将文件与结构化表联接：非结构化工作流通常需要合并存储在具有非结构化文件的表中的结构化数据。以下示例将云存储路径中的文件与两个结构化表联接，按文件大小和用户属性进行筛选。通过使用 user_files 从文件路径 split 中提取文件 ID 和 element_at完成联接。

SELECT
  users.user_id,
  user_files.file_id,
  files._metadata.file_name AS file_name,
  files.* EXCEPT (content),
  ai_parse_document(files.content, map('version', '2.0')) AS parsed_document
FROM read_files(
  's3://my-bucket-name/files/',
  format => 'binaryFile',
  fileNamePattern => '*.{pdf,doc,docx,ppt,pptx,png,jpg,jpeg}'
) AS files
JOIN user_files
  ON user_files.file_id = element_at(split(files.path, '/'), -2)
JOIN users
  ON users.user_id = user_files.user_id
WHERE users.email LIKE '%@databricks.com'
  AND files._metadata.file_size < 10000000;

Last updated on 2026-07-14

read_files 表值函数

语法

参数

返回

_metadata 列