ai_parse_document

分析包含二进制数据的列(blob),并返回 VariantType。 如果输入 Blob 无效,则引发异常。

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

参数

参数 类型 Description
col pyspark.sql.Column 或二进制数据 包含要分析的二进制 Blob 的列名或列名。
options dict自选 用于控制分析行为的选项字典。

退货

pyspark.sql.Column:包含文档分析结果的 VariantType 的新列。 结果包括一个document包含和pageselements数组的对象,以及error_statusmetadata。 每个元素表示已分析文档中的离散内容单元,例如文本段落、表格、图形或布局标记。