Azure AI 语言会持续更新。 为了让大家随时了解最新的开发成果,本文介绍了新版本和新功能。
2025 年 3 月
命名实体识别(NER)和文本个人身份信息(PII)实体识别模型的后端基础结构现已使用扩展上下文窗口限制进行更新。
我们的 对话 个人身份信息删除 服务现在由升级的 GA 模型驱动。 此更新的版本包括信用卡号实体和数字标识实体(如社会安全号码、驾照号码、政策编号、医疗保险受益者标识符和财务账户号码)的质量和准确性。
2025 年 2 月
- 文档和文本抽象摘要现在由微调的 Phi-3.5-mini 提供支持! 有关详细信息,请查看 公告博客 。
2025 年 1 月
- 适用于 Azure AI 语言文本分析的 .NET SDK( Azure.AI.Language.Text 1.0.0-beta.2)现已推出。 此客户端库支持最新的 REST API 版本 2024-11-01 和 2024-11-15-preview,具有以下功能:
- 语言检测
- 情绪分析
- 关键短语提取
- 命名实体识别 (NER)
- 个人身份信息(PII)实体识别
- 实体链接
- 健康状况文本分析
- 自定义命名实体识别(自定义 NER)
- 自定义文本分类
- 提取文本摘要
- 抽象文本摘要
2024 年 11 月
- 对话语言理解(CLU)的运行时容器可用于本地连接。
- 我们的文本 PII 编修服务和对话 PII 服务预览 API(版本 2024-11-15-preview)现在都支持使用标签(而不仅仅是编修字符)来屏蔽检测到的敏感实体。 客户可以指定是否将个人数据内容(如姓名和电话号码)“John Doe 收到来自 424-878-9192 的呼叫”,屏蔽为“******** 收到来自 ************ 的呼叫”或用实体标签屏蔽,即“
PERSON_1
收到来自PHONENUMBER_1
的呼叫”。 有关如何为输出指定编辑策略样式的详细信息,请参阅我们的 操作指南。 - 最新 API 版本 2024-11-15-preview 已移除本机文档支持限制,从而允许客户访问 PII 编修和摘要的本机文档支持。 此版本中的关键更新包括:
- 增加了最大文件大小限制(从 1 MB 增加到 10 MB)。
- 增强的 PII 修订自定义:客户现在可以指定是只想要经过修订的文档,还是同时需要经过修订的文档和包含检测到的实体的 JSON 文件。
- 语言检测是一项预配置功能,可以检测文档编写的语言,并为各种语言、变体、方言和一些区域/文化语言返回语言代码。 今天,我们宣布正式发布脚本检测功能,并支持另外 16 种语言,总计支持语言总数达到 139 种。
- 从 API 版本 2023-04-15-preview 开始,命名实体识别服务、实体解析已升级为实体元数据。 如果要调用的 API 预览版等于或新于 2023-04-15-preview,请查看“实体元数据”文章以使用解析功能。 该服务现在支持指定要包含在响应中或从响应中排除的实体标记列表的功能。 如果一段文本被归类为多个实体类型,则 overlapPolicy 参数允许客户指定服务如何处理重叠。 inferenceOptions 参数允许用户调整推理,例如,可以选择不将检测到的实体值规范化和包含在元数据中。 除了这些可选的输入参数外,我们还支持更新的输出结构(包含新的字段标记、类型和元数据),以确保增强的用户自定义和更深入的分析详细了解我们的文档。
- 健康文本分析(TA4H)是一项预配置功能,它从非结构化文本(如医生笔记、出院摘要、临床文档和电子健康记录)中提取和标记相关医疗信息。 今天,我们在正式版 API 中发布了对快速医疗保健互操作性资源 (FHIR) 结构和临时断言检测的支持。
2024 年 10 月
- 使用自定义语言服务功能,可以通过 API 将项目部署到单个区域中的多个资源,以便随时随地使用自定义模型。
2024 年 9 月
- PII 检测现在提供容器支持。 请参阅 Azure 更新文章中的更多详细信息:宣布发布文本 PII 修订容器。
2024 年 8 月
- 项目中的 CLU 语句限制从 25,000 提高到 50,000。
- CLU 新版训练配置(版本 2024-08-01-preview)现已推出,提高了域外语句的意向识别质量。
2024 年 7 月
- 英语语境中的对话 PII 编修服务现已正式发布。
- 对话摘要预览版现在支持此处列出的另外 12 种语言。
- 会议或对话章节摘要标题功能现在支持更短的长度,以重点关注关键主题。
- 启用对变音符号数据增强的支持,以生成一些自然语言中使用的变音符号变体的训练数据变体,这对日耳曼语和斯拉夫语特别有用。
2024 年 2 月
2024 年 1 月
-
原生文档支持目前在
2023-11-15-preview
公共预览版中可用。
2023 年 12 月
- 适用于健康状况的文本分析 新模型 2023-12-01 现已推出。
- 新关系类型:
BodySiteOfExamination
- 进行了质量提升以支持放射学文档
- 在延迟方面实现了显著改进
- 修复了多个 bug:在 NER、实体链接、关系和断言检测方面进行了改进
2023 年 11 月
- 命名实体识别容器现已正式发布 (GA)。
2023 年 7 月
- 自定义情绪分析现为预览版。
2023 年 4 月
- 语言检测的最新模型版本 (
2022-10-01
) 现在支持 6 种国际语言和 12 种罗马化印度语系语言。
2023 年 3 月
用于个人识别信息 (PII) 检测的新模型(2023-01-01-preview),提供了质量更新和新的语言支持
新版本的文本分析客户端库现提供预览版:
2023 年 2 月
- 对话语言理解和业务流程工作流现已在中国主权云的以下区域中提供:
- 中国东部 2(创作和预测)
- 中国北部 2(预测)
- 对话语言理解和编排工作流的新模型评估更新。
- 运行状况文本分析的新模型版本(2023-01-01-preview),具有运行状况社会决定因子的新实体类别。
- 用于命名实体识别功能的新模型版本 ('2023-02-01-preview') 提高了准确性,并提供了其他多达 79 种语言的语言支持。
2022 年 12 月
- 文本分析客户端库的新版本 (v5.2.0-beta.1) 以 C#/.NET 预览版提供:
- 发布了用于语言检测的新模型版本 (
2022-10-01
)。 新模型版本改进了短文本的语言检测质量。
2022 年 11 月
扩展了针对以下功能的语言支持:
对话 PII 现在支持最多 40,000 个字符的文档大小。
新版本的文本分析客户端库现提供预览版:
爪哇岛
Javascript
Python语言
- 软件包 (PyPi)
- 更改日志/版本历史记录
- 自述文件
- 示例
2022 年 10 月
- 摘要功能现在具有以下功能:
- 扩展了以下项的语言支持:
- 以下项的多区域部署和项目资产版本控制:
- 对话语言理解中的正则表达式和所需组件,增加了影响实体预测的功能。
- 命名实体识别中的实体解析
- 新增以下项的区域支持:
- 将文档类型作为健康状况文本分析 FHIR 请求支持的输入
2022 年 9 月
-
对话语言理解在以下区域中可用:
- 印度中部
- 瑞士北部
- 中国北部 2
- 医疗文本分析现在支持更多语言(预览版):西班牙语、法语、德语、意大利语、葡萄牙语和希伯来语。 使用 Docker 容器部署 API 服务时,可以使用这些语言。
- Azure.AI.TextAnalytics 客户端库 v5.2.0 已正式发布,可用于生产应用程序。 有关语言服务客户端库的详细信息,请参阅开发人员概述。
- 爪哇岛
- 蟒
- 软件包 (PyPi)
- 更改日志/版本历史记录
- 自述文件
- 示例
- C#/.NET
2022 年 8 月
- 语言服务的基于角色的访问控制。
2022 年 7 月
语言服务支持的所有 Azure 区域现在都可使用对话 PII。
新版本的语言 API (
2022-07-01-preview
) 已可用。 提供以下功能:- 针对异步任务的自动语言检测。
- 健康状况文本分析的置信度分数目前在关系中返回。
若要在 REST API 调用中使用此版本,请使用以下 URL:
<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-07-01-preview
2022 年 6 月
- 对于以下语言,适用于对话语言理解和编排工作流的 v1.0 客户端库已正式发布。
- v1.1.0b1 客户端库的对话摘要预览版现已推出:
- 有一个新的终结点 URL 和请求格式,用于对预生成的语言服务功能进行 REST API 调用。 有关如何构建 API 调用的信息,请参阅以下快速入门指南和参考文档。 所有文本分析
3.2-preview.2
API 用户都可以开始将其工作负载迁移到这个新终结点。
2022 年 5 月
用于对话的 PII 检测。
将文本摘要重新命名为文档摘要。
对话摘要正式开启公共预览。
以下功能现已正式发布 (GA):
- 自定义文本分类
- 自定义命名实体识别 (NER)
- 对话语言理解
- 编排工作流
自定义文本分类、自定义命名实体识别 (NER)、对话语言理解和业务流程工作流包括以下更新:
- 数据拆分控件。
- 可取消训练作业。
- 可命名自定义部署。 最多可创建 10 个部署。
- 切换部署的能力。
- 用于自定义命名实体识别的自动标注(预览版)
- 企业就绪情况支持
- 对话语言理解的训练模型
- 更新了服务限制
- 支持对语言资源使用免费 (F0) 层
- 扩展了区域可用性
- 更新了模型生命周期以添加训练配置版本
2022 年 4 月
- 快速医疗保健互操作性资源 (FHIR) 支持在语言 REST API 预览版的医疗文本分析功能中可用。
2022 年 3 月
- 扩展了以下项的语言支持:
2022 年 2 月
文本摘要的最新模型版本的模型改进
模型
2021-10-01
是用于情绪分析和观点挖掘的正式发布版 (GA),具有增强的表情建模功能,在所有受支持的语言中都具有更好的准确度。问题解答:主动学习 v2 包含更好的聚类分析逻辑,提高了建议的准确度。 当建议被接受或拒绝时,它会考虑用户操作,以避免重复建议,并改进查询建议。
2021 年 12 月
- version 3.1-preview.x REST 接口和 5.1.0-beta.x 客户端库已停用。 请升级到 API 的正式发行版 (v3.1)。 如果使用客户端库,请使用包版本 5.1.0 或更高版本。 有关详细信息,请参阅迁移指南。
2021 年 11 月
根据持续的客户反馈,我们已将健康状况文本分析的每个文档的字符限制从 5,120 提高到 30,720。
Azure AI 语言版本,支持:
SDK 支持发送请求到自定义模型:
- 自定义命名实体识别
- 自定义文本分类
- 自定义语言理解