分析包含二进制数据的列(blob),并返回 VariantType。 如果输入 Blob 无效,则引发异常。
Syntax
from pyspark.databricks.sql import functions as dbf
dbf.ai_parse_document(col=<col>, options=<options>)
参数
| 参数 | 类型 | Description |
|---|---|---|
col |
pyspark.sql.Column 或二进制数据 |
包含要分析的二进制 Blob 的列名或列名。 |
options |
dict自选 |
用于控制分析行为的选项字典。 |
退货
pyspark.sql.Column:包含文档分析结果的 VariantType 的新列。 结果包括一个document包含和pageselements数组的对象,以及error_status和 metadata。 每个元素表示已分析文档中的离散内容单元,例如文本段落、表格、图形或布局标记。