Data Card(数据卡):负责任 AI 的有目的且透明的数据集文档——Google Research

发布时间 2023-04-21 15:46:05作者: stardsd

随着研究和行业转向能够执行大量下游任务的大规模模型,理解赋予模型细微差别的多模态数据集的复杂性迅速增加。对数据集的起源、发展、意图、伦理考虑和演变的清晰和透彻的理解成为负责任和知情部署模型的必要步骤,尤其是那些在面向人的环境和高风险领域中的模型。然而,这种理解的负担往往落在文档的可理解性、简洁性和全面性上。它要求所有涉及的数据集的文档具有一致性和可比性,因此此类文档本身必须被视为以用户为中心的产品。在本文中,我们提出数据卡以促进透明、在工业和研究的实际环境中有目的和以人为本的数据集文档。数据卡是有关 ML 数据集各个方面的基本事实的结构化摘要,利益相关者在数据集的整个生命周期中为负责任的 AI 开发所需。这些摘要解释了塑造数据和模型的过程和基本原理——例如上游来源、数据收集和注释方法;培训和评估方法、预期用途;或影响模型性能的决策。我们还介绍了将数据卡置于现实世界实用性和以人为本的基础上的框架。通过两个案例研究,我们报告了支持跨领域、组织结构和受众群体采用的理想特征。最后,

CCS 概念: •社会和专业主题 → 用户特征概述和参考→评估软件及其工程 → 软件创建和管理以人为本的计算

关键词: 数据卡 数据集文档透明度负责任的 AI数据表模型卡

ACM 参考格式:
Mahima Pushkarna、Andrew Zaldivar 和 Oddur Kjartansson。2022. 数据卡:负责任 AI 的有目的且透明的数据集文档。2022年ACM 公平性、问责制和透明度会议 (FAccT '22),2022 年 6 月 21 日至 24 日,韩国首尔。ACM,美国纽约州纽约市 51 页。https://doi.org/10.1145/3531146.3533231

图1图 1: 来自数据卡的页面总结了文本翻译数据集的生命周期。数据卡以行列结构按主题组织各种内容,以便于索引和查找。块的细节从左到右增加,作者引入了链接,以优雅地向读者展示使用数据卡中提供的上下文的其他文档。

1简介

机器学习 (ML)模型和数据集透明度的挑战继续受到学术界和工业界越来越多的关注 [ 1、2 ]通常,目标是通过公开源代码 [ 4 ]、贡献轨迹 [ 8 ]、引入 ML 驱动数据分析方法 [ 19 ] 以及引入多样化监督 [ 18]来获得对 ML 模型和数据集的更大可见性]. 通过数据集的镜头模型结果的透明度和可解释性已成为国际政府机构监管中的一个巨大问题。然而,尝试引入标准化、实用和可持续的透明度机制以创造规模价值,但在研究和生产环境中取得的成功有限。这反映了参与数据集和人工智能 (AI) 系统生命周期的各个利益相关者目标、工作流和背景多样性的现实世界限制 [ 11、13、14 ]

作为创造将数据集成功与研究和生产经验联系起来的价值的一步,我们提出了一个新的框架,用于透明和有目的的数据集文档,称为数据卡 [26 ]数据卡包含在组织和面向实践的上下文中决策所需的可观察(例如,数据集属性)和不可观察(例如,预期用例)方面的数据集生命周期中收集的结构化摘要集合。除了元数据之外,数据卡还包括与 ML 模型数据集的来源、表示、使用和公平知情评估有关的解释、基本原理和说明

数据卡强调塑造数据的信息和上下文,但不能直接从数据集中推断出来。这些被设计为边界对象 [ 28 ],应该在用户旅程的重要步骤中以可访问的格式轻松提供给不同的读者。数据卡鼓励在为产品、政策和研究构建和评估 ML 模型时就数据使用做出明智的决策。数据卡补充了其他较长形式和特定领域的道德报告文档框架(参见附录A),例如模型卡 [ 23 ]、数据声明 [ 9 ]、数据集数据表 [ 15 ] 和 [ 6 ] 情况说明书。

数据卡伴随着框架,以适应各种数据集和组织环境。这些框架对于在利益相关者之间建立共同点并为决策提供多样化的输入至关重要。我们的案例研究表明,数据卡的创建者能够发现令人惊讶的未来机会来改进他们的数据集设计决策,例如考虑高百分比未知值的原因以及在问题期间对数据集标签中使用的词典建立共同理解的需要公式。

总之,我们的贡献有四方面:

  • 我们在一家大型科技公司的环境中解释了我们的多管齐下方法,并提出了跨越典型数据集生命周期的利益相关者类型。我们将开发方法的结果转化为创建数据卡的相应目标和原则,以系统地减少利益相关者之间的知识不对称。
  • 我们为大规模生产和研究环境引入了一个透明的工件,数据卡——利益相关者在数据集的生命周期中为负责任的 AI 开发所需的关于 ML 数据集各个方面的基本事实的结构化摘要,并描述了内容(要呈现的信息数据卡的设计(How to present information)、评估(Assess the efficacy of information )。
  • 我们提出了三个数据卡构建框架,分别侧重于信息组织、问题框架和答案评估。具体来说,我们描述了 OFTEn,这是我们新颖的知识获取框架,旨在为数据集生产者提供一种强大、深思熟虑且可重复的方法来生产透明文档。
  • 我们介绍了为计算机视觉数据集和语言数据集创建数据卡的案例研究,以证明它们在实践中作为边界对象的影响,并讨论了在扩展数据卡方面学到的认知和组织经验教训。

我们的集体努力表明,除了全面透明的工件1之外,结构化框架的创建不仅有利于为数据集文档过程本身添加细微差别,而且在 ML 应用程序中使用数据集时引入以人为本和负责任的实践方面也具有变革性。

2开发方法

在 24 个月的时间里,借鉴了以人为本的设计、参与式设计和人机交互等方法,设计了数据卡及其支持框架。我们与一家大型技术公司的数据集和 ML 团队合作,以迭代方式创建数据卡,完善我们的设计决策以应对生产环境中的挑战。与此同时,我们开展了研究和研讨会,以确定数据卡实施过程中的机遇和挑战。在本节中,我们将详细介绍各种努力并描述它们对数据卡开发的影响。

具体来说,我们与一家大型技术公司的 12 个团队合作,创建了 22 个数据卡,用于描述生产环境中的图像、语言、表格、视频、音频和关系数据集。团队的成员人数从 4 人到 20 多人不等,由研究软件工程师、研究科学家、数据分析师和数据项目经理组成。这使我们能够观察每个团队的文档工作流程、协作信息收集实践、下游利益相关者的信息请求、审查和评估实践。我们的共同创造方法与其他研究中收到的反馈相结合,使每张新创建的数据卡的可用性和实用性得到持续改进。

当我们与 ML 数据集和模型所有者合作制作原型透明工件时,草稿在一个有 9 名参与者的外部焦点小组中进行了评估。这些参与者代表了来自用户体验 (UX) 和人机交互 (HCI) 研究、政策、产品设计与开发、学术界和法律的非专家技术用例。参与者被要求完成一份纸质问卷,以反映他们对透明度的理想,作为更广泛的透明度讨论的基础。然后向参与者提供了打印的草稿,他们在草稿中附上了他们的反馈意见。这使我们能够捕获特定的反馈并在工件中建立跨主题和主题的关系。最后,我们讨论了他们对透明度工件的使用情况,并进行了离线调查以了解他们的总体期望。通过这个焦点小组,我们能够得出与 AI 产品生命周期中的领域相关的透明度的工作定义和价值。我们进一步将对透明度工件的反馈综合成一组初始建议,以应对常见的读者端挑战,然后将其作为创建数据卡的团队的指南提供。

根据我们与团队共同创建数据卡的经验,我们能够将重复出现和重叠的问题整合到一个规范模板中,该模板记录了数据集的 31 个不同方面。特定于模态的问题被合并到可附加的块中,但在很大程度上被排除在规范模板之外。进行了后续的内部 MaxDiff 调查 (n=191),以了解我们公司内部数据集文档中的信息需求。通过这项调查,我们了解了数据卡中记录的 31 个方面的相对重要性,这些方面如何因数据集模式和工作职能而异,并进一步将见解纳入我们的数据卡设计中。我们观察到需要一个生成框架,数据卡创建者可以使用该框架在不影响可读性的情况下向新数据集添加或定制问题,

我们的内部研究招募了来自公司内部 16 个团队的 30 名专家。参与者代表利益相关者,他们 (a) 创建专为 ML 用例设计的数据集,以及 (b) 使用或审查数据集以进行应用和基础模型开发。在三天的时间里,该小组参与了各种参与活动,以阐明透明度工件的用例、信息需求和透明度工件的评估策略。然后邀请参与者积极参与未来关于数据卡及其开发的讨论,因为它与参与者的特定数据域相关。我们发现,尽管参与者具有深厚的专业知识和经验,但他们无法提供模范文档的示例,但可以快速提供“优秀”的不良文档示例。

此外,我们开发了一种基于结构化参与式研讨会的方法,以便在为数据集文档创建透明元数据模式时让跨职能利益相关者参与进来 [ 25]]. 这种方法是开源的,并在人类计算、地理空间 ML、多模式数据操作、医疗保健数据、社区参与研究和大规模多任务语言模型等数据领域进行了测试。所有研讨会的共同点是,我们发现参与团队通常从直觉开始,了解数据集文档透明化的好处。我们发现团队需要在透明度、受众和受众需求的共享定义上保持一致,因为先决条件是定义内容、基础设施和流程以扩展数据卡创建。我们观察了可能影响扩展数据卡的长期可持续性的组织特定因素,例如利益相关者之间的知识不对称、激励创建和维护文档的组织流程、基础设施兼容性和准备情况,以及利益相关者群体之间和内部的沟通文化。虽然详细讨论我们开发透明度元数据模式和调查的参与式方法超出了本文的范围,但我们从我们的方法中介绍了相关的关键框架。

2.1数据卡上下文中的框架透明度

尽管研究参与者的背景各不相同,但普遍的主流看法是,具有讽刺意味的是,透明人工制品是不透明的。简而言之,当使用的语言是技术性的、密集的并且假定读者的背景时,文档中的不透明性会增加,从而使非技术利益相关者难以解释。这反过来会导致次优决策,并传播权力结构和近视人工智能数据实践中的不对称。此外,焦点小组和研讨会参与者将透明度描述为“主观”、“特定受众”和“上下文”。为此,我们将透明度定义为“对某物是什么、它做什么以及为什么这样做的清晰、易于理解和通俗易懂的语言解释”,以强调透明工件的领域不可知论和包容性特权。在表1中,我们展示了透明度的八个特征,这些特征对于深入讨论 AI 数据集的好处、价值、伦理和局限性至关重要。

表 1: 通过参与式会议呈现的透明表面特征。
透明特性描述
平衡对立面 例如,披露有关 AI 系统的信息而不让创造者毫无理由地受到伤害,报告公平性分析而不使不公平或不公平的系统合法化,引入完全自动化或成为清单的透明度标准。
期望增加 透明工件中包含的任何信息都将受到更严格的审查。
持续可用性 用户希望访问多个级别的透明度信息,即使他们不需要使用它。
需要制衡 透明工件及其创建必须能够接受第 3 方评估,但需要注意的是过度透明会使 AI 系统容易受到敌对行为者的攻击。
主观解释 利益相关者对透明度的定义和看法各不相同。
信任推动者 有关 AI 系统的可访问和相关信息增加了数据消费者或用户基于对他们使用的数据、算法和产品的收益预期而承担风险的意愿。
减少知识不对称 当跨学科利益相关者拥有共同的心智模型和词汇来描述 AI 系统的各个方面时,他们会更加有效。
反映人的价值 它来自关于假设、事实和备选方案的技术和非技术披露。

数据卡旨在提供一个可扩展的工件,允许跨产品、政策和研究的非传统利益相关者了解有关数据集的各个方面以及如何使用它们做出明智的决策。我们发现,利益相关者通过更严格的审查审查数据卡中与角色相关的主题,后续问题的具体性逐渐增加,这表明当我们基于提问和回答的能力建立对数据集的共享和苏格拉底式理解时,就实现了透明度随着时间的推移问题

2.2利益相关者的类型

起初,数据卡的受众相当广泛,既有专家也有非专家。Suresh 等人 [ 29 ] 提出的框架将更高层次的领域目标和目标与较低层次的可解释性任务区分开来,但受到其认识论框架和广阔范围的限制。我们创建了一个广泛但可分解的类型学来描述数据集生命周期中的三个利益相关者群体,使我们能够考虑跨职能利益相关者如何在单一透明度工件的基础上参与决策。

在我们的类型中,生产者是数据集和文档的上游创建者,负责数据集的收集、所有权、发布和维护。我们观察到,生产者通常认同一个单一的、非正式的数据卡“用户”概念——松散地以高数据领域专业知识、熟悉类似数据集和深厚的技术知识为特征。然而,在实践中,我们发现只有少数读者或代理人真正满足所有这些要求。

代理人是利益相关者,他们阅读透明度报告,并拥有使用或确定他们自己或其他人如何使用所描述的数据集或人工智能系统的代理权。在与不同的受众群体一起测试原型和概念证明后,很明显具有操作和审阅需求的代理是不同的类别。审阅者包括可能永远不会直接使用数据集但会参与数据卡的利益相关者(例如审阅者或非技术主题专家)。代理人可能拥有也可能不具备导航典型数据集文档中提供的信息的技术专长,但通常可以根据需要访问专业知识。

此外,代理与用户不同,用户是与依赖于在数据集上训练的模型的产品进行交互的个人和代表。用户可能同意将他们的数据作为产品体验的一部分提供,并需要基于产品体验的一组截然不同的解释和控制。因此,我们建议使用具有技术专长的数据卡目标代理,并鼓励为用户使用专门为此目的设计的替代透明工件。

我们进一步分解这些高级别组以产生意识并强调每个子组必须做出的独特决策(图 [ 3]). 然而,这些分组存在于一个连续体中,利益相关者可能同时属于多个组,这取决于他们的背景。我们使用这种类型学来挖掘通常对个体利益相关者丰富的交叉属性做出的假设,例如专业知识(例如新手或专家)、数据流畅性(例如从无到高)、工作角色(例如数据科学家、政策制定者)​​、在概念化数据卡时,针对数据(数据贡献者、评估者)和目标或任务(发布数据集、比较数据集)执行的功能。这些群体的可用性研究揭示了在实践中和大规模成功和适当采用数据卡的指南。这些被提炼成数据卡的以下目标:

2.2.1 O1。一致:无论数据形式或领域如何,数据卡必须彼此具有可比性,以便声明在使用环境中易于解释和验证。虽然部署一次性数据卡相对容易,但我们发现组织在扩大采用范围时需要保持可比性。数据卡创建工作应从所有数据集中征求公平的信息。

2.2.2氧气。全面:与其将创建作为数据集生命周期的最后一步,不如轻松地与数据集同时创建数据卡。此外,填写数据卡字段的责任应该分配给最合适的人。这需要扩展到数据卡之外的标准化方法,并将其应用于数据集生命周期中生成的各种报告。

2.2.3 O3。清晰明了:读者的熟练程度2各不相同,这会影响他们对数据卡的解读。在利益相关者熟练程度不同的情况下,具有最强数据集心智模型的个人成为事实上的决策者。最后,更紧迫或更具挑战性的任务会减少非传统利益相关者的参与(见3) 的决定,留给“专家”。这有可能遗漏反映下游和横向利益相关者的情境需求的关键观点。数据卡应有效地与熟练程度最低的读者进行交流,同时使熟练程度较高的读者能够根据需要找到更多信息。内容和设计应该推进读者的审议过程而不压倒他们,并鼓励利益相关者合作,为决策制定数据集的共享心智模型。

2.2.4 O4。可解释性、不确定性:研讨会参与者报告说,“已知的未知数”在决策制定中与数据集的已知方面一样重要。将不确定性与有意义的元数据一起传达被认为是一项功能而不是错误,允许读者回答诸如“特定分析与数据集无关还是结果微不足道?”之类的问题。“信息是否因为专有或未知而被隐瞒?”。对不确定性的清晰描述和理由可以导致采取额外措施来降低风险,从而为更公平和公正的模型创造机会。这建立了对数据集及其发布者 [ 10 ] 的更大信任。

3数据卡

数据卡捕获有关数据集整个生命周期的关键信息。正如每个数据集一样,每个数据卡都是独一无二的,没有一个模板能够令人满意地捕捉所有数据集的细微差别。在本节中,我们介绍了我们的指导原则,并详细说明了数据卡的设计、内容和评估决策。我们引入了相应的框架,允许定制数据卡,但保留数据卡的实用性和意图。

3.1原则

与生产者规范采用的先前相关文档工具包 (A) 相比,我们的新贡献是数据卡的生成设计作为透明报告的基础框架,用于生产环境中与领域和流畅性无关的可读性和扩展为实现上述目标,数据卡的设计遵循以下原则:

  • P1。灵活:描述范围广泛的数据集,例如静态数据集、从单一或多个来源积极策划的数据集,或具有多种模式的数据集。
  • P2。模块化:将文档组织成有意义的部分,这些部分是自包含且结构良好的单元,能够提供数据集单个方面的端到端描述。
  • P3。可扩展:可以针对新的数据集、分析和平台轻松地重新配置或系统地扩展的组件。
  • P4。可访问:以多种粒度表示内容,以便读者可以高效地找到并有效地浏览数据集的详细描述。
  • P5。内容无关:支持多种媒体,包括多项选择、长格式输入、文本、可视化、图像、代码块、表格和其他交互元素。

3.2设计与结构

数据卡的基本“显示”单元是一个,由标题、问题、附加说明或描述的空间以及答案的输入空间组成。答案输入通过结构得到加强,以创建特别适用于长格式或短格式文本、多项或单项选择响应、表格、数字、键值对、代码块、数据可视化、标签、链接和演示的块数据本身,符合原则 ( P1 ) 和 ( P5 )。在我们的模板中,我们迭代地引入了开放式答案的结构、多项选择题的预定回答,以及回答可能很复杂的示范示例(图 2 ). 生产者发现这些辅助工作是设定对响应的一致性、清晰度和粒度的期望的有用指南。完成后,块通常会保留标题和答案(见图1),以减少生产者和代理人之间的经验差距。

图 2图 2: 数据卡模板部分:此部分标题为“数据集概述”,包含两行。第一行有三个块,而第二行横跨该部分的整个宽度。块包含 (A) 标题,(B) 提示问题,以及 (C) 填充有预定选项或建议答案结构的答案输入空间。

 

块按主题和层次结构排列在网格上,以实现数据集的“概览优先、缩放和过滤、按需详细信息”[ 27 ] 呈现,以实现原则 ( P4 )。在我们的模板中,包含相关问题的块被组织成行行被堆叠以创建使用有意义和描述性标题的部分(图2). 每行在主题上都是独立的,因此读者可以有效地浏览数据卡中数据集的多个方面。沿着数据卡编写语言的方向,跨栏的答案在细节和特异性方面都有所增加,使读者能够找到适合他们的任务和决策的信息。在适当的情况下,单个块可以跨越多个列。各部分根据第一个数据卡中的部分标题标记的嵌套层次结构中的功能重要性垂直排列 [ D]. 在这里,建立了所有必要的部分(数据集快照、动机、扩展使用、收集和标记方法),以便为解释描述公平性相关分析(公平性指标、边界框大小)的部分提供更大的上下文。相比之下,第二个数据卡 [ E ] 中的部分以平面层次结构组织,表明所有块的重要性相同。内容格式的变化传达了外延和内涵意义,同时保留了“块”的基本单位,说明了原则(P2)和(P3)。

3.2.1苏格拉底式提问框架:范围。为了确保具有不同熟练程度的代理能够以最小的障碍逐步探索内容(原则P4),数据卡中的任何新信息都需要在多个抽象级别上引入。此外,添加临时块可能会在结构上损害读者和生产者等方面的数据卡,从而降低设计的可用性和完整性或内容。与目标O2O3相关,我们提供了一种结构化的方法来构建和组织问题,以解决在为新数据集调整数据卡模板时遇到的常见挑战。根据所需的特殊性,将新主题解构为广泛的问题,然后将其外推为至少三个以不同粒度构成的问题。我们将它们描述为望远镜、潜望镜和显微镜。根据记录的主题,数据卡可能需要不均匀分布的望远镜、潜望镜或微镜问题。我们前面提到的行和列设计,结合我们的组织原则,为我们提供了足够的灵活性来混合内容层次结构,以满足范围类型的不同组合。为了演示的目的,我们考虑敏感的人类属性的文档:

表 2: 数据卡模板中的内容主题。我们的内容模式扩展了传统数据集文档的构成,包括与 31 个主题相关的解释、原理和说明。我们预计并非所有主题都与所有数据集一致相关或同样适用于单个数据集中的特征。
(1) 数据集的发布者及其访问权限 (17) 数据收集过程(纳入、排除、过滤标准)
(2) 数据集的资助 (18) 如何清理、解析和处理数据(转换、采样等)
(3) 数据集的访问限制和策略 (19) 数据集中的数据评级、过程、描述和/或影响
(4) 数据集的擦除和保留策略 (20) 数据集中的数据标注、过程、描述和/或影响
(5) 数据集数据的更新、版本、刷新、增补 (21) 数据集、过程、描述和/或影响中的数据验证
(6) 数据集特征的详细分解 (22) 数据集的过去使用情况和相关性能(例如训练的模型)
(7) 数据集或数据集文档中没有的收集属性的详细信息 (23) 与数据集相关的裁决政策和流程(labeler instructions, inter-rater policy等)
(8) 数据的原始上游来源 (24) 相关的关联监管或合规政策(GDPR、许可证等)
(9) 数据集的性质(数据模态、领域、格式等) (25) 数据集基础设施和/或管道实施
(10) 数据集中的典型和离群例子是什么样子的 (26) 数据集的描述性统计(均值、标准差等)
(11) 创建数据集的解释和动机 (27) 数据集中的任何已知模式(相关性、偏差、偏差)
(12) 数据集的预期应用 (28) 人类属性(社会文化、地缘政治或经济代表性)
(13) 在实践中使用数据集的安全性(风险、限制和权衡) (29) 公平性相关的评估和数据集的考虑
(14)关于将数据集与其他数据集或表一起使用的期望(特征工程、连接等) (30) 数据卡中使用的技术术语的定义和解释(度量标准、行业专用术语、首字母缩略词)
(15) 数据集的维护状态和版本 (31) 使用数据集所需的特定领域知识
(16) 数据集之前版本和当前版本的差异  

望远镜提供了数据集的概览。这些是关于适用于多个数据集的通用属性的问题,例如“此数据集是否包含敏感的人类属性?”。望远镜可以是二元(包含、不包含)或多项选择(选择所有适用项:种族、性别、民族、社会经济地位、地理、语言、性取向、宗教、年龄、文化、残疾、经验或资历,其他,请注明)). 这些服务于三个特定目的。首先,伸缩问题生成枚举或标签,这些枚举或标签对大型数据卡存储库中的知识管理、索引和过滤很有用。其次,它们在一行中引入并设置附加信息的上下文,帮助读者浏览更大或更复杂的数据卡。最后,伸缩问题引入了条件逻辑以简化填写数据卡的体验。当一起看时,望远镜问题提供了对数据集的肤浅但广泛的概述。

潜望镜提供了与数据集有关的更多技术细节。这些是关于特定于数据集的属性的问题,这些属性增加了望远镜的细微差别。例如,“对于每个选定的人类属性,指定此信息是作为数据集创建过程的一部分有意收集的,还是无意中未明确收集作为数据集创建过程的一部分但可以使用其他方法推断的。”潜望式问题可以询问操作信息,例如数据集的形状和大小,或功能信息,例如来源或意图。响应通常看起来像键值对、简短描述、表格和可视化。由于潜望镜通常描述分析结果、统计摘要和操作元数据,因此它们通常是可重现的并且可以自动化,其中自动化生成的结果比人工输入更准确或精确。

显微镜提供精细的细节。这些是关于塑造数据集的“不可观察的”人类过程、决策、假设和政策的问题。这些引出对决策的详细解释或总结更长的过程文件,这些文件管理对相应的潜望镜问题的回应。例如,“简要描述导致该数据集包含指定的人类属性的动机、理由、考虑因素或方法。总结为什么或如何影响数据集的使用。” 必然地,在没有标准化术语和操作程序的情况下,这些问题的答案很难自动化。显微镜的答案通常是带有列表和链接、数据表和可视化效果的长文本。

伸缩问题最容易回答,但实用性相对较低。透视问题有助于快速评估数据集的适用性和相关性,这对于简单决策至关重要。我们观察到微观问题最难回答,因为它们需要阐明隐含知识。我们发现数据卡的解释在很大程度上受到这些抽象级别的存在与否的影响。这些问题使代理商和生产商能够评估风险、计划缓解措施,并在相关时确定更好地创建数据集的机会。望远镜、潜望镜和显微镜将有用的细节叠加在一起,使众多读者可以在不忽视大局的情况下浏览。

3.3内容和架构

我们最初的方法是创建一个单一的模板,能够以一种易于理解的方式捕捉出处、意图、基本事实、解释和警告。在为不同类型的数据集共同创建数据卡时,我们确定了 31 个广泛的、可概括的主题(表2),它们全面描述了任何数据集 ( O2 )。但是,主题对利益相关者的每个任务的重要性各不相同。我们模板 ( F ) 中的部分捕捉了这些主题,进一步展示了如何将它们解构为范围集 ( 3.2.1 )。为了说明每个数据集引发的主题描述的差异,我们包括了来自案例研究的两张数据卡4.1、4.2) 分别在附录DE中。

3.3.1 OFTEn 框架。随着时间的推移,我们发现有必要开发一种一致且可重复的方法来从数据卡中的数据集生命周期中识别和添加新主题,组织中的每个人都可以报告这些主题。此外,某些主题(例如同意)可以跨越整个数据集生命周期,每个阶段都有不同的含义。我们介绍了 OFTEn,这是一种概念工具,用于通过详细的归纳和演绎数据集透明度调查,系统地考虑主题如何在数据卡( P1、P3 )的所有部分传播。

OFTEn(表3)缩写了数据集生命周期中的常见阶段(“起源、事实、转换、经验和 n=1示例”)。虽然有序,但阶段定义松散以反映典型的非线性数据集开发实践。值得注意的是,代理对数据集的使用被认为是 OFTEn 中的一个独特阶段,提供了灵活性来合并来自下游利益相关者(数据集消费者、产品用户,甚至数据贡献者)的反馈。这建立了跟踪在数据集上训练和评估的 AI 系统性能的轨迹,并揭示了潜在代理应注意的任何警告或限制。

通常,对数据集的分析可以先发制人地发现通常不明显的见解。归纳地,OFTEn 支持与代理的活动,以制定有关对决策很重要的数据集和相关模型的问题。在最简单的情况下,它可以被可视化为一个矩阵,其中行代表数据集生命周期,列提供提示以构建关于数据集生命周期中给定主题的问题(谁、什么、何时、何地、为什么和如何)(表3). 它的参与式使用可以报告数据集属性和可能影响实际部署结果的隐式信息。演绎地,我们使用 OFTEn 来评估数据卡是否准确地表示数据集,从而对文档和数据集产生形成性影响。最后,我们发现具有清晰底层 OFTEn 结构的 Data Cards 易于扩展和更新。这种结构允许数据卡随着时间的推移捕获信息,例如来自下游代理的反馈、版本之间的显着差异以及来自生产者或代理的临时审计或调查。

表 3: OFTEn 框架。
  描述 主题
起源 各种规划活动,例如问题制定、定义需求、设计决策、收集或采购方法,以及决定决定数据集结果的政策 作者身份、动机、预期应用、不可接受的用途、许可证、版本、来源、收集方法、勘误表、责任方
事实 描述数据集的统计和其他可计算属性、与原始计划的偏差,以及任何预先争论的分析和调查,包括与偏差和偏斜有关的那些 实例数、特征数、标签数、子组细分、特征描述、标签分类、缺失/重复、包含和排除标准
转换 过滤、验证、解析、格式化和清理等各种操作,通过这些操作将原始数据转换为可用形式,包括标签或注释策略、验证任务、特征工程和相关修改 评级或注释、过滤、处理、验证、综合特征、PII 处理、敏感变量、公平性分析、影响评估、偏差和偏差
经验 数据集在实验、生产或研究实践中进行基准测试或部署,包括特定任务、访问培训要求、为适应任务所做的修改、分析、意外行为、限制、警告以及与类似数据集的比较 预期性能、非预期应用、意外性能、注意事项、扩展用例、使用安全、下游结果、用例和用例评估
N=1(例子) 数据集中的例子,包括典型的、离群的、原始的和转换的例子;具体示例或指向其他相关工件的链接;链接到数据集中数据点的引导或非引导浏览器 示例或指向典型示例和异常值的链接;产生错误的例子;演示处理 null 或零特征值的示例;代码块和脚本、扩展文档、网络演示

3.4数据卡评价

我们与超过 18 家生产商合作,了解创建和维护数据卡的工作流程,并进行了访谈研究 (n=10) 以验证我们的观察结果。虽然这项研究的详细报告超出了本文的范围,但我们发现生产者倾向于将完整的数据卡(描述了类似的数据集)作为入门模板,而不是使用提供的模板。虽然这种做法使数据卡更容易完成,但它导致了不准确响应的增加、错误的传播以及对分叉数据卡中模板的修改。生产者会删除与其数据集无关的块和部分,在特定情况下,生产者会在语义上修改问题以适合他们的数据集。虽然在单个数据卡的上下文中是合理的,这些做法导致了分叉数据卡的后续碎片化。已删除但相关问题无法恢复,并且协调对原始模板的更新是劳动密集型的。最后,我们观察到生产者在不确定答案或不确定性很高时会选择回答“N/A”。这些现实世界的限制促使我们确定确保数据卡质量的机制,扩展有关不确定性的组织词汇,并在整个数据集生命周期中引入可被组织轻松采用的低门槛流程。或者当不确定性很高时。这些现实世界的限制促使我们确定确保数据卡质量的机制,扩展有关不确定性的组织词汇,并在整个数据集生命周期中引入可被组织轻松采用的低门槛流程。或者当不确定性很高时。这些现实世界的限制促使我们确定确保数据卡质量的机制,扩展有关不确定性的组织词汇,并在整个数据集生命周期中引入可被组织轻松采用的低门槛流程。

最初,每个新创建的数据卡都分配了两名审核员,代表代理人的典型工作职能。选定的审阅者总是不熟悉数据集,但通常能熟练地处理数据或数据集的领域。尽管他们具有专业知识,但对这些数据卡提供的反馈本质上是观察性和推测性的(“前两个列出的应用程序是常用的,从业者和外行都应该理解,但我不确定[应用程序]); 并且通常不够战术,无法让生产商将其合并到数据卡中。为了使审阅者的反馈具有可操作性和整体性,我们与我们公司的主题专家、数据审阅者、职能和战术角色合作,确定了用于评估数据集及其文档的 98 个概念。从中,我们排除了 13 个可用性和 8 个用户体验相关的概念,这些概念已包含在我们的目标中。然后,我们使用亲和映射将剩余的概念整合到 20 个集群中。然后将集群分为五个总括主题或“维度”,代表我们的专家用来评估数据卡描述数据集的严谨性的上下文决策信号,以及它对读者的相应功效。

3.4.1尺寸。维度是描述数据卡对代理的有用性的方向性教学向量。它们代表了读者可能做出的不同类型的判断,并对数据卡模板和完整数据卡的一致性、全面性、实用性和可读性产生了定性的见解。在这里,我们简要总结一下这些维度:

  • 问责制:展示生产者充分的自主权、反思、推理和系统决策。
  • 效用或用途:提供满足读者负责任的决策过程需求的详细信息,以确定数据集是否适合他们的任务和目标。
  • 质量:总结数据集的严谨性、完整性和完整性,并以许多读者可以访问和理解的方式进行交流。
  • 使用的影响或后果:在适当的环境中使用或管理数据集时,设定对积极和消极结果以及后续后果的期望。
  • 风险和建议:让读者了解已知的潜在风险和局限性,这些风险和限制源于出处、表现、使用或使用环境。提供足够的信息和备选方案,帮助读者做出负责任的权衡。

在评估数据卡和任何相关模型卡期间,要求具有不同领域和数据流畅性水平的审阅者测试上述维度,这些维度被设置为评分标准。审阅者被要求在每个维度上对完成的数据卡进行独立评分,使用 5 分制,选项为边缘平均突出此外,他们还被要求提供证据来支持他们的评级,以及生产商可以采取哪些措施来提高该特定评级。审稿人发现使用这些维度更容易提供结构化和可操作的反馈(”效用或用途:一般。证据:数据卡为可能希望访问该数据集的用户提供了所有必要的步骤,但我很难确定哪些用例适合该数据集。我知道收集数据集是为了评估[特定模型]的性能,但[特定模型]有什么作用?后续步骤:提供适用用例的其他示例,提供有关[特定模型]在预期用例下的作用的更多详细信息。” ). 多位审阅者表示对他们的评估更有信心。虽然这些维度主要用于评估数据卡是否有助于读者得出关于数据集的可接受结论,但专家审阅者的反馈揭示了增强数据集本身的具体机会。

4个案例研究

4.1用于公平研究的计算机视觉数据集

一个研究团队为计算机视觉 (CV) 公平技术创建了一个 ML 训练数据集,该数据集描述了人们的敏感属性,例如感知的性别和感知的年龄范围。从 Open Images [ 20 ] 中采样,数据集包括超过 30,000 个图像的 100,000 个边界框。每个边界框都用感知的性别和感知的年龄范围表示属性手动注释。考虑到与描述个人属性的敏感标签相关的风险与这些标签在公平分析和偏见缓解方面的社会效益相权衡,该团队希望有一种有效的方法来概述数据集的特征、局限性,并就内部数据集的可接受用途进行交流伦理审查员和外部听众。

三方参与了此数据卡 [ 12 ]的创建,该工作在数据集准备好后开始。首先,数据集作者对数据集整个生命周期的流程和决策有着深入的隐性知识。他们还从为数据集发布进行的广泛分析中获得了明确的知识。然而,这分布在多个文档中,数据卡是一种将知识组织成“可读格式”的练习,可以对多个数据集持续重复。这个过程在几天内异步发生。

下一个涉及的小组是数据集和随附论文的内部审阅者,对数据集如何与负责任的 AI 研发实践保持一致进行分析。分析侧重于标签中的子组、与每个子组相关的权衡,并根据一套既定的 AI 原则 [24] 阐明整个数据集的可接受和不可接受的用]. 审阅者建议团队创建数据卡。作为审查过程的结果创建数据卡揭示了专家之间的看法差异。例如,在数据卡中,生产商注意到近 40% 的感知年龄范围标签是“未知”的。审稿人无法确定这是否可以接受,随后的谈话进一步提出了关于用于标记具有“未知”感知年龄范围的边界框的标准的问题。结果发现,“高”水平的未知数对于这个问题空间中的数据集来说是相对典型的,并且归因于 30% 的边界框的大小小于图像的 1%。因此,生产者向数据卡添加了一个关于边界框的自定义部分,并创建了额外的支持可视化。更远,

最后参与创建数据卡的小组是本文的作者,他们提供了数据卡的以人为本的设计观点。反馈主要是为了揭示代理人的信息需求,以便就数据集的问责制、风险和建议、用途、后果和质量得出可接受的结论 ( 3.4.1 )。发布后的回顾显示,虽然生产者无法访问数据集消费者,但下游代理报告发现数据卡有用,并要求数据卡模板供自己使用。

4.2语言翻译的地理多样性数据集

一组软件工程师和一名产品经理注意到,某些模型会注意名字以对一个人的感知性别进行分类。经过调查,发现以前的训练数据集没有足够的名称属于非美国地理或在英语中不常见。还发现模型创建者正在对这些数据集做出假设。作为回应,该团队决定从维基百科的一组有限的公开策划数据中创建一个地理上多样化的评估数据集。

然而,很明显,真正多样化的数据集还需要考虑种族、年龄、性别、背景和职业。虽然国家是可接受的地理代表性代理,但需要从实体描述中推断出性别。在不了解数据集目标或数据设计中性别定义的情况下,该团队担心模型创建者可能会做出导致数据集使用不当的假设。为了传达这两个方面,该团队为具有和不具有技术专业知识的读者创建了数据卡。

负责数据集的设计、数据提取、清理和管理的专家与以人为本的设计师在迭代过程中合作制作数据卡 [7 ]虽然文档编制过程本身需要大约 20 个小时,但数据卡促使团队反思如何选择、审查和创建数据。他们特别考虑了他们对数据集不了解的地方、他们的假设、数据集的优点和局限性。在这样做的过程中,团队被迫重新考虑设计决策,这增加了总体时间表,但产生了更具原则性和目的性的地理多样化传记数据集。

该团队利用数据卡与利益相关者进行了全面更清晰的讨论。特别是,专家利益相关者指出,性别很难在数据集中确定。这些对话帮助团队就感知性别的定义达成一致,该定义依赖于数据文本中的性别指示术语,对描述个人集合的传记使用“男性”、“女性”和“中性”标签。团队发现围绕数据卡的一些讨论实际上是关于数据集的,并指出如果在设计阶段收到此反馈的有用性。最终的数据卡描述了数据选择标准、抽样标准、字段来源,并强调了大陆地区的国家分布。此外,

5讨论

5.0.1案例研究的经验和成果。虽然两个团队都对增加到各自数据集的透明度表示赞赏,但创建数据卡作为最后一步显着增加了对所需工作的认识。与数据集一起创建数据卡不是实施后任务,而是提供了几个好处。首先,它能够包含多个视角(工程、研究、用户体验、法律和伦理),以提高文档的可读性和相关性,以及随着时间的推移数据集的质量。然后,它强制将整个数据集生命周期中的不同文档聚合成一个利益相关者可以访问的单一的、真实的文档。最后,它促进了专家和非专家对负责任的人工智能实践的早期反馈,这些实践可能会影响数据设计和分析。值得注意的是,

5.0.2数据卡作为边界对象。数据卡旨在体现高度的解释灵活性 [ 21]. 单个数据卡可以支持执行审查和审计、确定在 AI 系统或研究中的使用、多个数据集的比较、研究的复制或跟踪不同团体对数据集的采用等任务。例如,寻求评估数据集质量以进行基准测试或分析的数据从业者;人工智能从业者确定数据集在新模型或现有模型中部署的用例适用性;产品经理评估下游影响,为所需的用户体验做出关于模型或产品优化的数据相关决策;政策利益相关者评估数据集相对于最终用户的代表性,以及参与创建数据集创建的各个机构的作用。重要的是,虽然数据卡能够在这些群体中拥有共同的身份,它们允许利益相关者使用对他们自己的实践社区有意义的维度、结构和词汇来分析性地做出决定。数据卡能够促进利益相关者之间的协作,同时支持没有达成共识的个人决策。

我们的数据卡设计可以将相关部分嵌入到描述 ML 模型和 AI 系统的透明工件中。相反,数据卡中的部分旨在捕获有关在 ML 模型中使用数据集的文档。这建立了一个工件网络,利益相关者可以在进行公平性和问责制审讯时检查这些工件,并在知识转移、数据集可重用性、组织治理和监督机制等跨领域的元问题上取得整体更好的结果。因此,数据卡有效地充当边界对象 [ 28 ] 以及相关的边界基础设施。

5.0.3采用路径。在我们最初发布数据卡 [ 5 ] 之后,公共和私人组织已经寻求采用类似的结构 ([ 16 ]、[ 17 ]、[ 3 ])。在我们的组织内,我们观察到非强制性的增加由有机地遇到完整数据卡的个人创建的数据卡。虽然这些说明了数据卡作为文档工件的实用性,但其质量和全面性取决于制作者的严谨性、表达不确定性的细微差别以及他们对数据集的了解。组织因素包括存在最低或强制性内容要求、过程激励、培训材料以及用于创建和共享数据卡的基础设施。虽然我们提出了一个相对全面的模板来记录数据卡中的数据集,但可以通过商定的互操作性和内容标准来刺激全行业的采用,这些标准作为生产者和代理商开发更公平的数据集心智模型的一种手段。

5.0.4基础设施和自动化。组织成功的关键在于它能够根据其数据集、模型和技术堆栈定制数据卡。知识管理基础设施必须连接到数据和模型管道,以便新知识可以无缝地整合到数据卡中,使其保持最新。我们发现 Blocks 允许在交互式平台(数字表单、存储库、数据集目录)上轻松实现,并适应非交互式表面(PDF、文档、物理文件、降价文件)。虽然这两个案例研究都生成了静态 PDF,但部分和字段可以在基于浏览器的用户界面中轻松实现,并针对不同的利益相关者量身定制的视图进行配置。

可以对数百个数据卡执行搜索和过滤操作的集中式存储库对于代理人识别最适合其任务的数据集具有长尾优势;可衡量地分配数据集使用方式的责任。我们观察到对支持利益相关者协作和共同创建数据卡、无关工件的链接和存储以及可视化、表格和分析结果的部分自动化的基础设施的明显偏好。有趣的是,我们观察到读者对自动化数据卡中的某些字段,尤其是当响应包含有助于解释结果的假设或理由时。字段应该自动化以始终保证准确性和反脆弱性,防止错误陈述和随后将质量差的数据集合法化。隐性知识是通过提供对方法、假设、决策和基线的上下文相关的、人工编写的解释来表达的。我们发现采用跨越整个数据集生命周期的共同创造方法将导致文档自动化的深思熟虑的方法。

6结论

我们提出了一个框架,用于对负责任的 AI 开发、数据卡进行大规模数据集的透明和有目的的文档记录。我们的基本方法通过提出透明度原则和建立透明度目标来推进最先进的技术;扩展数据集文档构成的现有范例;并通过以人为本的框架设计来构建、调整或扩展以及评估数据卡。我们对每个框架进行了深入讨论,并通过两个案例研究详细说明了数据卡在创建负责任的人工智能系统方面的功效的定性和轶事证据。我们方法的一个限制是使用 Google Docs 作为数据卡模板。这使利益相关者能够协作并保存数据卡开发的取证历史,生产者仅限于使用文本、表格和图像提供答案。此外,这种格式使我们无法通过设计和自动化来提高模板的可用性,而这是制作人强烈要求的功能。未来的工作需要一种更有原则的方法来扩展和调整数据卡模板而不影响可比性。来自研究的见解呼吁采用参与式方法,让不同的非传统利益相关者尽早参与数据集数据卡开发过程。最后,定义量化措施来评估数据卡的真正价值将需要在行业的广度和深度上采用。为了解决这个问题,需要进一步调查数据卡内容对不同利益相关者群体的任务的感知和实际重要性,并且需要将用户研究扩展到跨越多个行业的更广泛的参与者池。数据卡模板和框架鼓励定制实施,从而培养深入、详细和透明文档的文化。数据卡能够深思熟虑地解释数据集的含义,同时适当地突出未知数。它们揭示了有关数据集固有方面的见解,这些方面无法通过与数据集交互从本质上确定。