标记图像和文本文档

项目管理员创建了 Azure 机器学习图像数据标签项目或 Azure 机器学习文本数据标签项目后,你可以使用标签工具为机器学习项目快速准备数据。 本文介绍:

  • 如何访问标签项目
  • 标记工具
  • 如何使用工具执行特定的标签任务

先决条件

  • 组织和项目的 Microsoft 帐户或 Microsoft Entra 帐户。
  • 对包含标签项目的工作区具有参与者级别访问权限。

登录到工作室

  1. 登录到 Azure 机器学习工作室

  2. 选择包含标签项目的订阅和工作区。 你的项目管理员具有此信息。

  3. 你可能会在左侧看到多个部分,具体取决于你的访问级别。 如果是这样,选择左侧的“数据标签”来查找项目。

了解标记任务

在数据标签项目表中,选择项目的“标记数据”链接。

你会看到特定于项目的说明。 其中解释了涉及的数据类型、如何做出决策以及其他相关信息。 阅读信息,然后选择页面顶部的“任务”。 也可以选择页面底部的“开始标记”。

选择标签

在所有数据标签任务中,均需从项目管理员指定的集中选择一个或多个适当的标签。 可以使用键盘数字键选择前九个标签。

辅助机器学习

标记期间可以触发机器学习算法。 如果项目启用了这些算法,你可能会看到:

  • 图像

    • 在标记了一定数量的数据后,你可能会在屏幕顶部的项目名称旁边注意到“群集任务”。 图像被分组到一起,在同一页面上呈现相似的图像。 如果你注意到了这个,请切换到多个图像视图中的一个来利用分组功能。

    • 稍后,你可能会在项目名称旁边看到“预标记的任务”。 将显示带有建议标签的项,这类标签由机器学习分类模型生成。 任何机器学习模型都达不到 100% 的准确度。 虽然我们只使用模型有信心识别的数据,这些数据值仍可能存在错误的预标签。 查看标签时,请先更正所有错误的标签,然后再提交页面。

    • 在对象标识模型中,你可能已经注意到边界框和标签。 在提交页面之前,请更正所有错误。

    • 在分段模型中,你可能已经注意到多边形和标签。 在提交页面之前,请更正所有错误。

  • 文本

    • 最终你可能会在项目名称旁边看到“预标记任务”。 将显示带有建议标签的项,这类标签由机器学习分类模型生成。 任何机器学习模型都达不到 100% 的准确度。 虽然我们只使用模型有信心识别的数据,这些数据值仍可能被错误地预标记。 查看标签时,请先更正所有错误的标签,然后再提交页面。

在标签项目的早期,机器学习模型的准确度可能只够预标记较小的图像子集。 在标记了这些图像后,标签项目将返回到手动标记,为下一轮模型训练收集更多数据。 随着时间的推移,模型将对更高比例的图像更有信心。 在项目的后期,它的信心会使得预标记任务数量增多。

如果没有其他预标记任务,则需要停止确认和更正标签,并返回到手动项目标记操作。

图像任务

对于图像分类任务,可选择同时查看多个图像。 使用图像区域上方的图标选择布局。

若要同时选择所有显示的图像,请使用“全选”。 若要选择单个图像,请使用图像右上角的循环选择按钮。 必须至少选择一个图像才能应用标记。 如果选择多个图像,则选择的任何标记都将应用到所有选定的图像。

在这里,我们选择了一个二乘二的布局,并将标记“哺乳动物”应用于熊和虎鲸的图像。 鲨鱼图像已经被标记为“软骨鱼”,而鬣蜥还没有标记。

Multiple image layouts and selection

重要

只在你有包含未标记数据的新页面时切换布局。 切换布局会清除页面正在进行的标记工作。

标记了页面上的所有图像后,Azure 将启用“提交”按钮。 选择“提交”以保存工作。

提交手头数据的标记后,Azure 将使用工作队列中的一组新图像刷新页面。

医学图像任务

重要

为 DICOM 或类似图像类型设置标签的功能不应用于或不可供用于医疗设备、临床支持、诊断工具或者其他旨在用于诊断、治愈、缓解、治疗或预防疾病或其他健康问题的技术,Azure 不授予将此功能用于此类目的的任何许可或权利。 此功能不旨在代替专业人员医疗建议或保健意见、诊断、治疗或医疗保健专业人员临床判断而实施或部署,并且不应用作此用途。 客户只负责对 DICOM 或类似图像类型使用数据标签。

图像项目支持用于 X 光文件图像的 DICOM 图像格式。

X-ray DICOM image to be labeled.

虽然你在标记医学图像时使用的工具与其他图像相同,你也可以使用另一个工具来处理 DICOM 图像。 选择“窗口和级别”工具,以更改图像的强度。 此工具只可用于 DICOM 图像。

Window and level tool for DICOM images.

标记图像以进行多类分类

为“图像分类多类”项目类型的整个图像分配单个标记。 若要随时查看指导,请转到“说明”页,然后选择“查看详细说明”。

如果在向图像分配标记后发现有误,可以修复标记。 选择图像下面显示的标签上的“X”可以清除标记。 还可以选择图像并选择另一个类。 新选择的值会替换以前应用的标记。

标记图像以进行多标签分类

如果你的项目类型为“图像分类多标签”,则会将一个或多个标记应用到图像。 若要查看特定于项目的说明,请选择“说明”,然后转到“查看详细说明”。

选择要标记的图像,然后选择标记。 该标记将应用到所有选定的图像,然后会取消选择这些图像。 若要应用多个标记,必须重新选择图像。 以下动画演示了多标签标记:

  1. “全选”用于应用“海洋”标记。
  2. 选择单个图像并将其标记为“特写”。
  3. 选择了三个图像,并将其标记为“广角”。

Animation shows multilabel flow

若要更正错误,请选择“X”以清除单个标记,或选择图像后选择标记,从所有选定的图像中清除该标记。 此处演示了上述场景。 选择“陆地”后会从两个选定的图像中清除该标记。

A screenshot shows multiple deselections

仅当将至少一个标记应用于每个图像后,Azure 才会启用“提交”按钮。 选择“提交”以保存工作。

标记图像并指定边界框以进行对象检测

如果项目的类型为“对象标识(边界框)”,请在图像中指定一个或多个边界框,并将标记应用到每个框。 图像都可以有多个边界框,每个框具有单个标记。 使用“查看详细说明”来确定你的项目是否使用了多个边界框。

  1. 选择要创建的边界框的标记。
  2. 选择“矩形框”工具 Rectangular box tool 或选择“R”。
  3. 选择你的目标,并沿对角线拖动,创建大致的边界框。 拖动边或角来调整边界框。

Bounding box creation

若要删除边界框,请在创建后选择边界框旁边显示的 X 形目标。

无法更改现有边界框的标记。 若要修复标记分配错误,则必须删除边界框,并使用正确的标记创建新的边界框。

默认情况下,可以编辑现有的边界框。 “锁定/解锁区域”工具Lock/unlock regions tool或“L”可切换该行为。 如果区域已锁定,则只能更改新边界框的形状或位置。

使用“区域操作”工具 This is the regions manipulation tool icon - four arrows pointing outward from the center, up, right, down, and left. 或使用“M”来调整现有的边界框。 拖动边或角来调整形状。 若要拖动整个边界框,请在内部进行选择。 如果无法编辑某个区域,则你很可能切换了“锁定/解锁区域”工具。

使用“基于模板的框”工具 Template-box tool 或“T”来创建大小相同的多个边界框。 如果图像没有边界框,并且你激活了基于模板的框,则该工具将生成 50x50 像素框。 如果你创建了边界框,然后激活了基于模板的框,则任何新边界框将匹配上次创建的框的大小。 放置后,可以调整基于模板的框的大小。 调整基于模板的框的大小只会调整该特定框的大小。

若要删除当前图像中的所有边界框,请选择“删除所有区域”工具Delete regions tool

创建图像的边界框后,请选择“提交”以保存工作,否则正在进行的工作不会保存。

标记图像并为图像分段指定多边形

如果你的项目的类型为“实例分段(多边形)”,请将在图像中指定一个或多个多边形,并对每个多边形应用标记。 图像都可以有多个边界多边形,每个多边形都具有一个标记。 使用“查看详细说明”来确定你的项目是否使用了多个边界多边形。

  1. 选择要创建的多边形的标记。

  2. 选择“绘制多边形区域”工具 Draw polygon region tool 或选择“P”。

  3. 选择多边形中的每个点。 完成形状后,双击完成。

    Create polygons for Cat and Dog

若要删除多边形,请在创建后选择多边形旁边显示的 X 形目标。

若要更改多边形的标记,请选择“移动区域”工具,选择多边形,然后选择正确的标记。

你可以编辑现有多边形。 “锁定/解锁区域”工具 Edit polygons with the lock/unlock regions tool 或“L”可切换该行为。 如果区域已锁定,则只能更改新多边形的形状或位置。

使用“添加或删除多边形点”工具 This is the add or remove polygon points tool icon. 或“U”来调整现有的多边形。 选择多边形以添加或删除点。 如果无法编辑某个区域,则你很可能切换了“锁定/解锁区域”工具。

若要删除当前图像中的所有多边形,请选择“删除所有区域”工具Delete all regions tool

为图像创建多边形后,请选择“提交”以保存工作,否则正在进行的工作不会保存。

对语义分段标记图像并绘制蒙版

如果项目的类型为“语义分段(预览)”,请使用画笔在要标记的区域上绘制蒙版。

  1. 对要绘制的区域选择一个标记。

  2. 选择“画笔”工具 Screenshot of the Paintbrush tool.

  3. 选择“大小”工具Screenshot of the Size tool. 以选取画笔的大小

  4. 在要标记的区域上绘制。 与标记对应的颜色将应用于所绘制的区域。

    Screenshot of paint area for cat and dog faces for semantic segmentation.

若要删除该区域的某些部分,请选择“橡皮擦”工具

若要更改区域的标记,请选择新标记并重新绘制区域。

还可以使用 Polygon 工具指定区域。

为图像创建区域后,请选择“提交”以保存工作,否则正在进行的工作不会保存。 如果使用 Polygon 工具,则提交时,所有多边形都将转换为蒙版。

标签文本

标记文本时,请使用工具栏执行以下操作:

  • 增加或缩减文本大小
  • 更改字体
  • 跳过标记此项并移至下一项

如果分配标签后发现出错,可以进行修正。 选择文本下面所显示标签上的“X”可清除标签。

有三种文本项目类型:

项目类型 描述
分类多类 向整个文本条目分配一个标签。 只能为每个文本项选择一个标签。 选择一个标签,然后选择“提交”移动到下一个条目。
分类多标签 向每个文本条目分配一个或多个标签。 可以为每个文本项选择多个标签。 选择应用的所有标签,然后选择“提交”移动到下一个条目。
命名实体识别 在每个文本条目中标记不同的字词或短语。 查看下一部分中的说明。

若要查看特定于项目的说明,请选择“说明”,然后转到“查看详细说明”。

标记字词和短语

如果你的项目已设置命名实体识别,需要在每个文本项中标记不同的字词或短语。 若要标记文本,请执行以下操作:

  1. 选择标签或键入与相应标签对应的编号
  2. 双击某个字词,或使用鼠标选择多个字词。

Screenshot: Named entity recognition.

若要更改标签,可以执行以下操作:

  • 删除标签并重新启动。
  • 更改当前项中部分或所有特定标签的值:
    • 选择标签本身,这将选择该标签的所有实例。
    • 再次选中此标签的实例,以取消选择你不需要保留的任何实例。
    • 最后,选择新标签以更改所有仍处于选中状态的标签。

标记条目中的所有项后,选择“提交”移动到下一个条目。

完成

当你提交已标记数据的页时,Azure 会从工作队列为你分配新的未标记数据。 如果没有其他未标记的数据,会有一条新消息提示你,其中包含门户主页的链接。

完成标记后,选择工作室右上角圆圈内的图像,然后选择“退出登录”。如果未退出登录,Azure 会“超时”并将数据分配给另一个做标签的人。

后续步骤