什么是 Azure 翻译器文档翻译?

文档翻译是 Azure Translator 的基于云的机器翻译功能。 可以跨所有支持的语言和方言翻译多个复杂文档,同时保留原始文档结构和数据格式。 文档翻译 API 支持两种翻译流程:

  • 异步批量翻译支持处理多个文档和大型文件。 批量翻译过程需要一个 Azure Blob 存储帐户,其中包含源文档和翻译文档的存储容器。

  • 同步翻译单个文件支持处理单个文件的翻译。 文件翻译过程不需要 Azure Blob 存储帐户。 最终响应包含翻译后的文档,会直接返回给调用客户端。

主要功能

功能 说明
翻译大型文件 异步翻译整个文档。
翻译大量文件 在保留文档结构和数据格式的同时,翻译所有支持的语言和方言的多个文件。
在 Word 文档文件中翻译图像文本(.docx)。 此功能适用于用于文件格式的.docx API。
保留源文件显式 在保留原始布局和格式的同时翻译文件。
应用自定义词汇表 使用自定义词汇表翻译文档。
自动检测文档语言 让文档翻译服务确定文档的语言。
翻译包含多种语言的文档内容 使用自动检测功能,将包含多种语言的文档翻译成目标语言。

开发选项

利用可用的开发工具和选项,将文档翻译功能集成到项目和应用程序中。 此功能允许你以编程方式在应用程序功能中实现翻译功能,并根据需要为用户提供多语言支持。

利用异步工作流实现多个文档和大型文件的并行翻译,从而优化效率。

发展选项 说明
REST API REST API 是一个与语言无关的接口,可用于创建 HTTP 请求和授权标头来翻译文档。
客户端库(SDK) 客户端库(SDK)是特定于语言的类、对象、方法和代码,可通过在项目中添加引用来快速使用。 目前,文档翻译对 C#/.NETPython 具有编程语言支持。

支持的文档和术语表格式

批处理文档支持的格式

Get 支持的文档格式方法返回文档翻译服务支持的文档格式列表。 如果使用上传 API,则列表中包含常见的文件扩展名和内容类型。

文件类型 文件扩展名 说明
Adobe PDF pdf 可移植文档文件格式。 文档翻译使用光学字符识别(OCR)技术提取和翻译扫描的 PDF 文档中的文本,同时保留原始布局。
逗号分隔值 csv 电子表格程序使用的且以逗号分隔的原始数据文件。
HTML htmlhtm 超文本标记语言。
图片(2025-12-01-preview) .jpeg.png.bmp.webp 存储数字图像数据的文件。
OpenDocument 演示文稿 odp 一个开源演示文稿文件。
OpenDocument 电子表格 ods 一个开源电子表格文件。
OpenDocument 文本 odt 一个开源文本文档文件。
Markdown markdownmdownmkdnmdmkdmdwnmdtxtmdtextrmd 用于创建带格式文本的轻型标记语言。
MHTML mhtmlmht 一种网页存档格式,用于组合 HTML 代码及其配套资源。
Microsoft Excel xlsxlsx 用于数据分析和文档的电子表格文件。
Microsoft Outlook msg 在 Microsoft Outlook 中创建或保存的电子邮件。
Microsoft PowerPoint pptpptx 用于以幻灯片格式显示内容的演示文稿文件。
Microsoft Word docdocx 文本文档文件。
RTF 格式 rtf 包含格式的文本文档。
制表符分隔值/TAB tsv/tab 电子表格程序使用的且以制表符分隔的原始数据文件。
文本 txt 无格式的文本文档。
XML 本地化交换文件格式 xlff 并行文档格式,是翻译记忆系统的导出格式。 使用的语言在该文件中定义。

批量翻译旧版文件类型

在文档翻译过程中保留源文件类型,但存在以下例外

源文件扩展名 翻译后的文件扩展名
.doc、.odt、.rtf .docx
.xls、.ods .xlsx
.ppt、.odp .pptx

批处理术语表支持的格式

文档翻译支持以下术语表文件类型:

文件类型 文件扩展名 说明
逗号分隔值 csv 电子表格程序使用的且以逗号分隔的原始数据文件。
XML 本地化交换文件格式 xlfxliff 翻译内存系统导出的一种并行文档格式。使用的语言在文件内定义。
制表符分隔值/TAB tsvtab 电子表格程序使用的且以制表符分隔的原始数据文件。

文档翻译请求限制

有关 Azure 翻译器请求限制的详细信息, 请参阅文档翻译请求限制

后续步骤

快速入门介绍如何快速开始使用文档翻译。 首先,需要有效的 Azure 帐户。 如果没有,可以创建一个试用帐户