文档翻译是 Azure Translator 的基于云的机器翻译功能。 可以跨所有支持的语言和方言翻译多个复杂文档,同时保留原始文档结构和数据格式。 文档翻译 API 支持两种翻译流程:
异步批量翻译支持处理多个文档和大型文件。 批量翻译过程需要一个 Azure Blob 存储帐户,其中包含源文档和翻译文档的存储容器。
同步翻译单个文件支持处理单个文件的翻译。 文件翻译过程不需要 Azure Blob 存储帐户。 最终响应包含翻译后的文档,会直接返回给调用客户端。
主要功能
| 功能 | 说明 |
|---|---|
| 翻译大型文件 | 异步翻译整个文档。 |
| 翻译大量文件 | 在保留文档结构和数据格式的同时,翻译所有支持的语言和方言的多个文件。 |
| 在 Word 文档文件中翻译图像文本(.docx)。 | 此功能适用于用于文件格式的.docx API。 |
| 保留源文件显式 | 在保留原始布局和格式的同时翻译文件。 |
| 应用自定义词汇表 | 使用自定义词汇表翻译文档。 |
| 自动检测文档语言 | 让文档翻译服务确定文档的语言。 |
| 翻译包含多种语言的文档内容 | 使用自动检测功能,将包含多种语言的文档翻译成目标语言。 |
开发选项
利用可用的开发工具和选项,将文档翻译功能集成到项目和应用程序中。 此功能允许你以编程方式在应用程序功能中实现翻译功能,并根据需要为用户提供多语言支持。
利用异步工作流实现多个文档和大型文件的并行翻译,从而优化效率。
| 发展选项 | 说明 |
|---|---|
| REST API | REST API 是一个与语言无关的接口,可用于创建 HTTP 请求和授权标头来翻译文档。 |
| 客户端库(SDK) | 客户端库(SDK)是特定于语言的类、对象、方法和代码,可通过在项目中添加引用来快速使用。 目前,文档翻译对 C#/.NET 和 Python 具有编程语言支持。 |
支持的文档和术语表格式
批处理文档支持的格式
Get 支持的文档格式方法返回文档翻译服务支持的文档格式列表。 如果使用上传 API,则列表中包含常见的文件扩展名和内容类型。
| 文件类型 | 文件扩展名 | 说明 |
|---|---|---|
| Adobe PDF | pdf |
可移植文档文件格式。 文档翻译使用光学字符识别(OCR)技术提取和翻译扫描的 PDF 文档中的文本,同时保留原始布局。 |
| 逗号分隔值 | csv |
电子表格程序使用的且以逗号分隔的原始数据文件。 |
| HTML |
html,htm |
超文本标记语言。 |
| 图片(2025-12-01-preview) |
.jpeg、.png、.bmp、.webp |
存储数字图像数据的文件。 |
| OpenDocument 演示文稿 | odp |
一个开源演示文稿文件。 |
| OpenDocument 电子表格 | ods |
一个开源电子表格文件。 |
| OpenDocument 文本 | odt |
一个开源文本文档文件。 |
| Markdown |
markdown,mdown,mkdn,md,mkd,mdwn,mdtxt,mdtext,rmd |
用于创建带格式文本的轻型标记语言。 |
| MHTML |
mhtml,mht |
一种网页存档格式,用于组合 HTML 代码及其配套资源。 |
| Microsoft Excel |
xls,xlsx |
用于数据分析和文档的电子表格文件。 |
| Microsoft Outlook | msg |
在 Microsoft Outlook 中创建或保存的电子邮件。 |
| Microsoft PowerPoint |
ppt,pptx |
用于以幻灯片格式显示内容的演示文稿文件。 |
| Microsoft Word |
doc,docx |
文本文档文件。 |
| RTF 格式 | rtf |
包含格式的文本文档。 |
| 制表符分隔值/TAB | tsv/tab |
电子表格程序使用的且以制表符分隔的原始数据文件。 |
| 文本 | txt |
无格式的文本文档。 |
XML 本地化交换文件格式 |
xlff |
并行文档格式,是翻译记忆系统的导出格式。 使用的语言在该文件中定义。 |
批量翻译旧版文件类型
在文档翻译过程中保留源文件类型,但存在以下例外:
| 源文件扩展名 | 翻译后的文件扩展名 |
|---|---|
| .doc、.odt、.rtf | .docx |
| .xls、.ods | .xlsx |
| .ppt、.odp | .pptx |
批处理术语表支持的格式
文档翻译支持以下术语表文件类型:
| 文件类型 | 文件扩展名 | 说明 |
|---|---|---|
| 逗号分隔值 | csv |
电子表格程序使用的且以逗号分隔的原始数据文件。 |
XML 本地化交换文件格式 |
xlf,xliff |
翻译内存系统导出的一种并行文档格式。使用的语言在文件内定义。 |
| 制表符分隔值/TAB |
tsv,tab |
电子表格程序使用的且以制表符分隔的原始数据文件。 |
文档翻译请求限制
有关 Azure 翻译器请求限制的详细信息, 请参阅文档翻译请求限制。