Azure AI 语言中的新增功能

Azure AI 语言会持续更新。 为了让大家随时了解最新的开发成果,本文介绍了新版本和新功能。

2025 年 3 月

  • 命名实体识别(NER)和文本个人身份信息(PII)实体识别模型的后端基础结构现已使用扩展上下文窗口限制进行更新。

  • 我们的 对话 个人身份信息删除 服务现在由升级的 GA 模型驱动。 此更新的版本包括信用卡号实体和数字标识实体(如社会安全号码、驾照号码、政策编号、医疗保险受益者标识符和财务账户号码)的质量和准确性。

2025 年 2 月

  • 文档和文本抽象摘要现在由微调的 Phi-3.5-mini 提供支持! 有关详细信息,请查看 公告博客

2025 年 1 月

  • 适用于 Azure AI 语言文本分析的 .NET SDK( Azure.AI.Language.Text 1.0.0-beta.2)现已推出。 此客户端库支持最新的 REST API 版本 2024-11-01 和 2024-11-15-preview,具有以下功能:
    • 语言检测
    • 情绪分析
    • 关键短语提取
    • 命名实体识别 (NER)
    • 个人身份信息(PII)实体识别
    • 实体链接
    • 健康状况文本分析
    • 自定义命名实体识别(自定义 NER)
    • 自定义文本分类
    • 提取文本摘要
    • 抽象文本摘要

2024 年 11 月

  • 对话语言理解(CLU)的运行时容器可用于本地连接。
  • 我们的文本 PII 编修服务和对话 PII 服务预览 API(版本 2024-11-15-preview)现在都支持使用标签(而不仅仅是编修字符)来屏蔽检测到的敏感实体。 客户可以指定是否将个人数据内容(如姓名和电话号码)“John Doe 收到来自 424-878-9192 的呼叫”,屏蔽为“******** 收到来自 ************ 的呼叫”或用实体标签屏蔽,即“PERSON_1 收到来自 PHONENUMBER_1 的呼叫”。 有关如何为输出指定编辑策略样式的详细信息,请参阅我们的 操作指南
  • 最新 API 版本 2024-11-15-preview 已移除本机文档支持限制,从而允许客户访问 PII 编修和摘要的本机文档支持。 此版本中的关键更新包括:
    • 增加了最大文件大小限制(从 1 MB 增加到 10 MB)。
    • 增强的 PII 修订自定义:客户现在可以指定是只想要经过修订的文档,还是同时需要经过修订的文档和包含检测到的实体的 JSON 文件。
  • 语言检测是一项预配置功能,可以检测文档编写的语言,并为各种语言、变体、方言和一些区域/文化语言返回语言代码。 今天,我们宣布正式发布脚本检测功能,并支持另外 16 种语言,总计支持语言总数达到 139 种
  • 从 API 版本 2023-04-15-preview 开始,命名实体识别服务实体解析已升级为实体元数据。 如果要调用的 API 预览版等于或新于 2023-04-15-preview,请查看“实体元数据”文章以使用解析功能。 该服务现在支持指定要包含在响应中或从响应中排除的实体标记列表的功能。 如果一段文本被归类为多个实体类型,则 overlapPolicy 参数允许客户指定服务如何处理重叠。 inferenceOptions 参数允许用户调整推理,例如,可以选择不将检测到的实体值规范化和包含在元数据中。 除了这些可选的输入参数外,我们还支持更新的输出结构(包含新的字段标记、类型和元数据),以确保增强的用户自定义和更深入的分析详细了解我们的文档。
  • 健康文本分析(TA4H)是一项预配置功能,它从非结构化文本(如医生笔记、出院摘要、临床文档和电子健康记录)中提取和标记相关医疗信息。 今天,我们在正式版 API 中发布了对快速医疗保健互操作性资源 (FHIR) 结构和临时断言检测的支持。

2024 年 10 月

2024 年 9 月

2024 年 8 月

2024 年 7 月

  • 英语语境中的对话 PII 编修服务现已正式发布。
  • 对话摘要预览版现在支持此处列出的另外 12 种语言。
  • 会议或对话章节摘要标题功能现在支持更短的长度,以重点关注关键主题。
  • 启用对变音符号数据增强的支持,以生成一些自然语言中使用的变音符号变体的训练数据变体,这对日耳曼语和斯拉夫语特别有用。

2024 年 2 月

  • 从 API 版本 开始,可以根据 ISO 15924 标准对其他脚本提供扩展的2023-11-15-preview支持。

2024 年 1 月

2023 年 12 月

  • 适用于健康状况的文本分析 新模型 2023-12-01 现已推出。
  • 新关系类型:BodySiteOfExamination
  • 进行了质量提升以支持放射学文档
  • 在延迟方面实现了显著改进
  • 修复了多个 bug:在 NER、实体链接、关系和断言检测方面进行了改进

2023 年 11 月

2023 年 7 月

2023 年 4 月

  • 语言检测的最新模型版本 (2022-10-01) 现在支持 6 种国际语言和 12 种罗马化印度语系语言。

2023 年 3 月

2023 年 2 月

  • 对话语言理解和业务流程工作流现已在中国主权云的以下区域中提供:
    • 中国东部 2(创作和预测)
    • 中国北部 2(预测)
  • 对话语言理解和编排工作流的新模型评估更新。
  • 运行状况文本分析的新模型版本(2023-01-01-preview),具有运行状况社会决定因子的新实体类别
  • 用于命名实体识别功能的新模型版本 ('2023-02-01-preview') 提高了准确性,并提供了其他多达 79 种语言的语言支持

2022 年 12 月

2022 年 11 月

2022 年 10 月

2022 年 9 月

2022 年 8 月

2022 年 7 月

  • 用于情绪分析关键短语提取的新 AI 模型基于 z 代码模型,该模型提供:

    • 情绪分析支持以下 11 种语言的性能和质量改进:ardaelfihinlnoplrusvtr
    • 关键短语提取支持以下 20 种语言的性能和质量改进:afbgcahrdanletfielhuidlvnoplroruskslsvtr
  • 语言服务支持的所有 Azure 区域现在都可使用对话 PII。

  • 新版本的语言 API (2022-07-01-preview) 已可用。 提供以下功能:

    • 针对异步任务的自动语言检测
    • 健康状况文本分析的置信度分数目前在关系中返回。

    若要在 REST API 调用中使用此版本,请使用以下 URL:

    <your-language-resource-endpoint>/language/:analyze-text?api-version=2022-07-01-preview
    

2022 年 6 月

2022 年 5 月

  • 用于对话的 PII 检测。

  • 将文本摘要重新命名为文档摘要。

  • 对话摘要正式开启公共预览。

  • 以下功能现已正式发布 (GA):

    • 自定义文本分类
    • 自定义命名实体识别 (NER)
    • 对话语言理解
    • 编排工作流
  • 自定义文本分类、自定义命名实体识别 (NER)、对话语言理解和业务流程工作流包括以下更新:

    • 数据拆分控件。
    • 可取消训练作业。
    • 可命名自定义部署。 最多可创建 10 个部署。
    • 切换部署的能力。
    • 用于自定义命名实体识别的自动标注(预览版)
    • 企业就绪情况支持
    • 对话语言理解的训练模型
    • 更新了服务限制
    • 支持对语言资源使用免费 (F0) 层
    • 扩展了区域可用性
    • 更新了模型生命周期以添加训练配置版本

2022 年 4 月

2022 年 3 月

2022 年 2 月

  • 文本摘要的最新模型版本的模型改进

  • 模型 2021-10-01 是用于情绪分析和观点挖掘的正式发布版 (GA),具有增强的表情建模功能,在所有受支持的语言中都具有更好的准确度。

  • 问题解答:主动学习 v2 包含更好的聚类分析逻辑,提高了建议的准确度。 当建议被接受或拒绝时,它会考虑用户操作,以避免重复建议,并改进查询建议。

2021 年 12 月

  • version 3.1-preview.x REST 接口和 5.1.0-beta.x 客户端库已停用。 请升级到 API 的正式发行版 (v3.1)。 如果使用客户端库,请使用包版本 5.1.0 或更高版本。 有关详细信息,请参阅迁移指南

2021 年 11 月