Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
多个支持索引器的数据源(包括 Azure Blob 存储、Azure Data Lake Storage Gen2 和 SharePoint)包含各种内容类型的独立文件或嵌入对象。 其中许多内容类型都具有可用于索引的元数据属性。 正如可以为标准 blob 属性(如 metadata_storage_name)创建搜索字段一样,也可以在搜索索引中为特定于文档格式的元数据属性创建字段。
支持的文档格式
Azure AI 搜索支持以下文档格式的 blob 索引和 SharePoint 文档索引:
- CSV(请参阅为 CSV Blob 编制索引)
- EML
- EPUB
- GZ
- HTML
- JSON(请参阅为 JSON blob 编制索引)
- KML(用于地理表示形式的 XML)
- Microsoft Office 格式:DOCX/DOC/DOCM、XLSX/XLS/XLSM、PPTX/PPT/PPTM、MSG(Outlook 电子邮件)、XML(2003 和 2006 Word XML)
- 公开文档格式:ODT、ODS、ODP
- 纯文本文件(另请参阅为纯文本编制索引)
- RTF
- XML
- ZIP
文档格式属性
下表汇总了每种文档格式的处理,还说明了 Blob 索引器和 SharePoint Online 索引器提取的元数据属性。
| 文档格式/内容类型 | 提取的元数据 | 处理详细信息 |
|---|---|---|
| CSV (text/csv) | metadata_content_typemetadata_content_encoding |
提取文本 注意:如果需要从 CSV Blob 提取多个文档字段,请参阅为 CSV Blob 编制索引 |
| DOC (application/msword) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
提取文本,包括嵌入的文档 |
| DOCM(应用程序/vnd.ms-word.document.macroenabled.12) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
提取文本,包括嵌入的文档 |
| DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
提取文本,包括嵌入的文档 |
| EML (message/rfc822) | metadata_content_typemetadata_message_frommetadata_message_tometadata_message_ccmetadata_creation_datemetadata_subject |
提取文本,包括附件 |
| EPUB(应用程序/epub+zip) | metadata_content_typemetadata_authormetadata_creation_datemetadata_titlemetadata_descriptionmetadata_languagemetadata_keywordsmetadata_identifiermetadata_publisher |
从存档中的所有文档提取文本 |
| GZ(应用程序/gzip) | metadata_content_type |
从存档中的所有文档提取文本 |
| HTML(text/html 或 application/xhtml+xml) | metadata_content_encodingmetadata_content_typemetadata_languagemetadata_descriptionmetadata_keywordsmetadata_title |
剥离 HTML 元素并提取文本 |
| JSON (application/json) | metadata_content_typemetadata_content_encoding |
提取文本 注意:如果需要从 JSON Blob 提取多个文档字段,请参阅为 JSON Blob 编制索引 |
| KML (application/vnd.google-earth.kml+xml) | metadata_content_typemetadata_content_encodingmetadata_language |
剥离 XML 元素并提取文本 |
| MSG (application/vnd.ms-outlook) | metadata_content_typemetadata_message_frommetadata_message_from_emailmetadata_message_tometadata_message_to_emailmetadata_message_ccmetadata_message_cc_emailmetadata_message_bccmetadata_message_bcc_emailmetadata_creation_datemetadata_last_modifiedmetadata_subject |
提取文本,包括从附件中提取的文本。
metadata_message_to_email、metadata_message_cc_email 和 metadata_message_bcc_email 是字符串集合。 其余字段是字符串。 |
| ODP(应用程序/vnd.oasis.opendocument.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_title |
提取文本,包括嵌入的文档 |
| ODS(应用程序/vnd.oasis.opendocument.spreadsheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
提取文本,包括嵌入的文档 |
| ODT(应用程序/vnd.oasis.opendocument.text) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
提取文本,包括嵌入的文档 |
| PDF(应用程序/pdf) | metadata_content_typemetadata_languagemetadata_authormetadata_titlemetadata_creation_date |
提取文本,包括嵌入的文档(不包括图像) |
| 纯文本 (text/plain) | metadata_content_typemetadata_content_encodingmetadata_language |
提取文本 |
| PPT (application/vnd.ms-powerpoint) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
提取文本,包括嵌入的文档 |
| PPTM(应用程序/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
提取文本,包括嵌入的文档 |
| PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
提取文本,包括嵌入的文档 |
| RTF(应用程序/rtf) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
提取文本 |
| WORD 2003 XML(应用程序/vnd.ms-wordml) | metadata_content_typemetadata_authormetadata_creation_date |
剥离 XML 元素并提取文本 |
| WORD XML(应用程序/vnd.ms-word2006ml) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
剥离 XML 元素并提取文本 |
| XLS (application/vnd.ms-excel) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
提取文本,包括嵌入的文档 |
| XLSM(应用程序/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
提取文本,包括嵌入的文档 |
| XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
提取文本,包括嵌入的文档 |
| XML (application/xml) | metadata_content_typemetadata_content_encodingmetadata_language |
剥离 XML 元素并提取文本 |
| ZIP (应用程序/zip) | metadata_content_type |
从存档中的所有文档提取文本 |