Compartir a través de

什么是“人类数据”,为什么负责任地获取这些数据很重要?

适用范围:Azure CLI ml 扩展 v2(最新版)Python SDK azure-ai-ml v2(最新版)

人类数据是直接从人类或关于人类收集的数据。 人类数据可能包括个人数据,例如姓名、年龄、图像或语音剪辑,以及敏感数据,例如基因数据、生物特征数据、性别认同、宗教信仰或政治派别。

收集这些数据对于生成适用于所有用户的 AI 系统非常重要。 但应避免某些做法,尤其是可能对数据贡献者造成身心伤害的做法。

本文中的最佳做法将帮助你从志愿者那里进行手动数据收集项目,让所有参与者都受到尊重,并且可以预见和减轻潜在危害(尤其是弱势群体面临的危害)。 这表示:

  • 贡献数据的人不会以任何方式受到胁迫或利用,他们可以控制收集哪些个人数据。
  • 收集和标记数据的人员受过足够的培训。

这些做法还有助于确保数据集更均衡、质量更高,并更好地管理人类数据。

这些都是新兴的做法,我们正在不断学习。 下一部分中的最佳做法是你开始收集自己的负责的人类数据的起点。 这些最佳做法仅供参考,不应将其视为法律建议。 所有人类数据收集都应经过特定的隐私和法律审查。

一般最佳实践

建议使用以下最佳做法来直接从人们那里手动收集人类数据。

最佳做法

为什么?


取得自愿知情同意。

  • 参与者应了解并同意数据收集及其数据的使用方式。
  • 数据的存储、处理和使用应仅限于原始书面知情同意书中的目的。
  • 同意文件应妥善保存,并与收集的数据相关联。

适当补偿数据贡献者。

  • 数据贡献者不应受到压力或被迫进行数据收集,并且应为他们付出的时间和数据提供公平的补偿。
  • 不适当的补偿可能是剥削性的或胁迫性的。

让贡献者对人口统计信息进行自我认同。

  • 不是由数据贡献者自行报告而是由数据收集者分配的人口统计信息可能 1) 导致元数据不准确,2) 不尊重数据贡献者。

在招募弱势群体时预测危害。

  • 从弱势群体收集数据会给数据贡献者和你的组织带来风险。

尊重数据贡献者。

  • 在数据收集的任何阶段,与数据贡献者的不当交互都会对数据质量以及数据贡献者和数据收集者的整体数据收集体验产生负面影响。

仔细确定外部供应商的资格。

  • 与不合格的供应商进行数据收集可能会导致数据质量低下、数据管理不善、做法不专业以及对数据贡献者和数据收集者造成潜在有害后果(包括侵犯人权)。
  • 与不合格的供应商进行注释或标记工作(例如,音频转录、图像标记)可能会导致数据集质量低下或有偏差、数据管理不安全、做法不专业以及对数据贡献者造成潜在有害结果(包括侵犯人权)。

在工作说明书 (SOW)(合同或协议)中与供应商明确沟通期望内容。

  • 对负责任的数据收集工作缺乏要求的合同可能会导致数据质量低下或收集不佳。

仔细确定地理位置。

  • 在适用的情况下,在地缘政治风险高的地区和/或不熟悉的地理位置收集数据可能会导致数据无法使用或质量低下,并可能影响相关方的安全。

成为数据集的良好管理者。

  • 不当的数据管理和不良的文档记录可能会导致数据滥用。

注意

本文重点介绍有关人类数据的建议,包括个人数据和敏感数据,如生物特征数据、健康数据、种族或民族数据、从公众或公司员工手动收集的数据,以及与人类特征相关的元数据,如年龄、血统和性别认同,这些数据可通过注释或标签创建。

在此处下载完整的建议

收集年龄、血统和性别认同的最佳做法

为了让人工智能系统能够为每个人都好地工作,用于训练和评估的数据集应能反映将使用这些系统或受这些系统影响的人的多样性。 在许多情况下,年龄、血统和性别认同有助于估计可能影响产品对不同人群的性能的因素范围;但是,收集这些信息需要特别考虑。

如果你确实要收集这些数据,请始终让数据贡献者进行自我认同(选择他们自己的回答),而不是让数据收集者做出假设,假设可能是不正确的。 此外,应为每个问题加入一个“不想回答”选项。 这些做法将表现出对数据贡献者的尊重,并产生更均衡、质量更高的数据。

这些最佳做法是基于与预期利益干系人进行的三年研究和与许多 Microsoft 团队(公平性和包容性工作组全球多样性和包容性全球就绪负责任 AI 办公室等)的协作而制定的。

为了使人们能够进行自我认同,请考虑使用以下调查问题。

Age

你多大了?

选择你的年龄范围

[包括根据项目目的、地理区域和领域专家指导定义的适当年龄范围]

  • # 到 #
  • # 到 #
  • # 到 #
  • 不想回答

血统

请选择最能描述你的血统的类别

可以选择多项

[包括根据项目目的、地理区域和领域专家指导定义的适当类别]

  • 血统
  • 血统
  • 血统
  • 多重(多种族,混合血统)
  • 未列出,我将自己描述为:_________________
  • 不想回答

性别认同

你对自我的认同如何?

可以选择多项

[包括项目目的、地理区域和领域专家指导定义的适当性别认同]

  • 性别认同
  • 性别认同
  • 性别认同
  • 首选自我描述:_________________
  • 不想回答

注意

在世界上的某些地方,法律将特定的性别类别定为刑事犯罪,因此数据贡献者诚实地回答这个问题可能会有危险。 请始终给人们提供一种选择退出的方法。并与区域专家和律师合作,仔细审查你计划收集数据的每个地方的法律和文化规范,如果需要,请完全避免询问此问题。

在此处下载完整的指导。

后续步骤

有关如何处理数据的更多信息:

收集数据后,请按照以下操作指南处理数据: