什么是文档翻译?

文档翻译是 Azure AI 翻译服务的一项基于云的机器翻译功能。 可以跨所有支持的语言和方言翻译多个复杂文档,同时保留原始文档结构和数据格式。 文档翻译 API 支持两种翻译流程:

  • 异步批量翻译支持处理多个文档和大型文件。 批量翻译过程需要一个 Azure Blob 存储帐户,其中包含源文档和翻译文档的存储容器。

  • 同步翻译单个文件支持处理单个文件的翻译。 文件翻译过程不需要 Azure Blob 存储帐户。 最终响应包含翻译后的文档,会直接返回给调用客户端。

异步批量翻译

使用异步文档处理来翻译多个文档和大文件。

批量翻译主要功能

功能 说明
翻译大型文件 异步翻译整个文档。
翻译大量文件 在保留文档结构和数据格式的同时,翻译所有支持的语言和方言的多个文件。
保留源文件显式 在保留原始布局和格式的同时翻译文件。
应用自定义词汇表 使用自定义词汇表翻译文档。
自动检测文档语言 让文档翻译服务确定文档的语言。
翻译包含多种语言的文档内容 使用自动检测功能,将包含多种语言的文档翻译成目标语言。

批量翻译开发选项

可使用 REST API 或客户端库 SDK 将文档翻译添加到应用程序:

  • REST API 是一个与语言无关的接口,使你能够创建 HTTP 请求和授权标头来翻译文档。

  • 客户端库 SDK 是语言特定的类、对象、方法和代码,可以通过在项目中添加引用来快速使用它们。 目前文档翻译支持 C#/.NETPython 编程语言 。

批量翻译支持的文档格式

获取受支持文档格式方法可返回文档翻译服务支持的文档格式的列表。 如果使用上传 API,则列表中包含常见的文件扩展名和内容类型。

文件类型 文件扩展名 说明
Adobe PDF pdf 可移植文档文件格式。 “文档翻译”采用光学字符识别 (OCR) 技术,在保留原始布局的同时提取和翻译 PDF 扫描文档中的文本。
逗号分隔值 csv 电子表格程序使用的且以逗号分隔的原始数据文件。
HTML htmlhtm 超文本标记语言。
本地化交换文件格式 xlf 并行文档格式,是翻译记忆系统的导出格式。 使用的语言在该文件中定义。
Markdown markdownmdownmkdnmdmkdmdwnmdtxtmdtextrmd 用于创建带格式文本的轻型标记语言。
M​HTML mthmlmht 一种网页存档格式,用于组合 HTML 代码及其配套资源。
Microsoft Excel xlsxlsx 用于数据分析和文档的电子表格文件。
Microsoft Outlook msg 在 Microsoft Outlook 中创建或保存的电子邮件。
Microsoft PowerPoint pptpptx 用于以幻灯片格式显示内容的演示文稿文件。
Microsoft Word docdocx 文本文档文件。
OpenDocument 文本 odt 一个开源文本文档文件。
OpenDocument 演示文稿 odp 一个开源演示文稿文件。
OpenDocument 电子表格 ods 一个开源电子表格文件。
RTF 格式 rtf 包含格式的文本文档。
制表符分隔值/TAB tsv/tab 电子表格程序使用的且以制表符分隔的原始数据文件。
文本 txt 无格式的文本文档。

批量翻译旧版文件类型

在文档翻译过程中保留源文件类型,但存在以下例外

源文件扩展名 翻译后的文件扩展名
.doc、.odt、.rtf .docx
.xls、.ods .xlsx
.ppt、.odp .pptx

批量翻译支持的词汇表格式

文档翻译支持以下术语表文件类型:

文件类型 文件扩展名 说明
逗号分隔值 csv 电子表格程序使用的且以逗号分隔的原始数据文件。
本地化交换文件格式 xlfxliff 翻译内存系统导出的一种并行文档格式。使用的语言在文件内定义。
制表符分隔值/TAB tsvtab 电子表格程序使用的且以制表符分隔的原始数据文件。

同步翻译

使用同步翻译处理将文档作为 HTTP 请求正文的一部分发送,并在 HTTP 响应中接收翻译后的文档。

同步翻译主要功能

功能 说明
翻译单页文件 同步请求仅接受单个文档作为输入。
保留源文件显式 在保留原始布局和格式的同时翻译文件。
应用自定义翻译 使用常规模型翻译文档。
应用自定义词汇表 使用自定义词汇表翻译文档。
单语言翻译 与一种支持的语言进行互译。
自动检测文档语言 让文档翻译服务确定文档的语言。
应用自定义词汇表 使用自定义词汇表来翻译文档。

同步翻译支持的文档格式

文件类型 文件扩展名 内容类型 说明
纯文本 .txt text/plain 无格式的文本文档。
制表符分隔值 .txv
.tab
text/tab-separated-values 一种文本文件格式,使用制表符分隔值并使用换行符分隔记录。
逗号分隔值 .csv text/csv 一种文本文件格式,使用逗号作为值之间的分隔符。
超文本标记语言 .html
.htm
text/html HTML 是用于构建网页和内容的标准标记语言。
MHTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
网页存档文件格式。
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation 用于 PowerPoint 幻灯片演示的基于 XML 的文件格式。
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet 用于 Excel 电子表格的基于 XML 的文件格式。
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document 用于 Word 文档的基于 XML 的文件格式。
Microsoft Outlook .msg application/vnd.ms-outlook 用于存储 Outlook 邮件对象的文件格式。
XML 本地化交换 .xlf
.xliff
application/xliff+xml 在翻译和本地化软件处理中广泛使用的标准化基于 XML 的文件格式。

同步翻译支持的术语表格式

文档翻译支持以下术语表文件类型:

文件类型 文件扩展名 说明
逗号分隔值 csv 电子表格程序使用的且以逗号分隔的原始数据文件。
XmlLocalizationInterchange xlfxliff 基于 XML 的格式,旨在标准化在本地化过程中传递数据的方式。
TabSeparatedValues tsvtab 电子表格程序使用的且以制表符分隔的原始数据文件。

文档翻译请求限制

有关 Azure AI 翻译服务请求限制的详细信息,请参阅文档翻译请求限制

后续步骤

快速入门介绍如何快速开始使用文档翻译。 首先,需要有效的 Azure 帐户。 如果没有,可以创建一个试用帐户