如何确保数据与人工智能的完整性？

2022-03-15 朋湖网

本文发自“VentureBeat”，原题为“Data and AI are keys to digital transformation – how can you ensure their integrity?”，作者Ashleigh Hollowell，经朋湖网作者王姿蝶编译整理，供业内参考。

如果说数据是数字经济的新石油，那么人工智能（AI）就是蒸汽机。好似石油和蒸汽机为运输提供燃料，并推动工业革命一样，掌握数据与人工智能力量的公司同时也掌握着创新关键。

2022年，数据和人工智能为数字革命新篇章奠定基础，并为越来越多的全球公司提供动力。那么，公司如何确保责任和道德是这些革命性技术的核心？

定义数据和人工智能的责任

注释者和数据标记者间缺少多元化样本是导致AI 偏差的最大因素之一。

VentureBeat数据峰会的小组成员、东北大学Khoury计算机科学学院公民人工智能实验室的助理教授兼主任Saiph Savage表示，负责任的人工智能需要从具有包容性的基础工作开始做起。

“其中要考虑的关键问题是，需要不同类型的劳动力为其进行数据标记。”Savage在VentureBeat的数据峰会上表示，假设工人仅来自纽约，那么，其与来自农村地区的工人信息标签方式就存在不同。这取决于工人不同类型的经历和不同类型的偏见。”

据行业专家解释，当今生产中的大量AI模型需要带注释、标记的数据来学习，用以增强AI的智能，并最终增强机器整体能力。

能够支持这一点的技术很复杂，其中包括自然语言处理 (NLP)、计算机视觉和情感分析等，而这些技术的复杂性将决定训练人工智能的误差范围。

研究表明，即使是著名的NLP语言模型中也包含种族、宗教、性别和职业偏见。同样，在研究人员所记录的计算机视觉算法中的偏见证据显示，这些模型会自动从在线刻板地描绘人群（按种族、性别、体重等）的数据中学习到偏见，即使是情绪分析模型也面临同样的挑战。

全球数据标签平台Toloka AI的数据峰会小组成员兼首席执行官Olga Megorskaya认为，负责任的人工智能很重要，但是，它只有在可操作的情况下才能发挥作用。面向企业时，负责任人工智能需要随时监控生产中部署的模型质量及人工智能决策来源。用户需要了解模型训练数据，并根据模型运行的上下文来对其不断进行更新。因此，负责任的人工智能意味着需要负责任地对待训练人工智能模型的幕后行动人，而这也是现阶段许多研究人员和大学密切合作的地方。

可解释性和透明度

如果负责任的人工智能具有可操作性，那么人工智能背后的可解释性和透明度与信息情绪同样重要。这些信息情绪将取决于处理数据的注释员和标签商以及使用Toloka等服务的公司客户。

Toloka自2014年启动起，便将自己定位于众包平台和微任务处理项目，即从全球范围寻找不同的个人，用以快速标记大量数据，然后用于机器学习和改进搜索算法。

在过去八年间，Toloka已然扩张，现阶段，该项目拥有来自全球100多个国家的数据注释和标签的20多万用户。同时，Toloka还开发了工具来帮助检测数据集和工具中的偏差，这些工具能够快速反馈可能会影响请求公司接口、项目或工具等与标记项目有关的问题。此外，Toloka还与Savage工作的东北大学Khoury计算机科学学院的Civic AI实验室中的研究人员存在密切合作。

Megorskaya表示，人工智能和数据标签市场的公司应该努力实现透明度和可解释性，这将“符合工人的利益，也符合企业的利益，使其成为每个人都能从共同发展中获得优势的双赢局面。”

Megorskaya建议企业保持对以下内容的调整，以确保内部和外部的透明度和可解释性：
1、不断调整人工智能培训的数据，使用能够反映当前的现实生活情况的数据。
2、衡量模型质量，并使用这些信息来构建模型质量指标，用以跟踪改进超时性能。
3、保持灵活度，将透明度视为数据标签人在进行注释时应遵循的可见性准则。
4、保证反馈易于访问，并优先处理。

例如，Toloka的平台提供了对可用任务的可见性以及为从事这项工作的标签工提供出指南，确保进行标签的工人和公司能够进行直接、快速的反馈循环。如果需要调整标签规则或指南，其就可以在短时间内进行更改。而这一标准，为标签团队提供了空间，让他们能够以更统一、准确及更新的方式处理数据标签过程的其余部分，用以人为本的方法解决可能出现的偏见留出空间。

将“人性”推向创新的最前沿

Megorskaya和Savage均表示，通常，外包标签和培训人工智能模型的公司是不会选择与实际标记数据的个人进行互动的。因此，公司把数据标签和注释任务留给第三方或外包的决定将使得其本身在人工智能负责任开发方面造成裂痕。

Toloka认为，消除人工智能生产领域偏见并打破系统断开的循环，能够让人工智能和机器学习更具包容性和代表性。

而他们也希望能够为这一变化铺平道路，并让开发工程师要求公司面对面地与数据标签商会面。这样一来，能够了解到其数据和人工智能存在的用户多样性。若公司技术影响到真实人员、地点和社区的可见性，工程最终将造成差距，而消除这一差距将为团队建造出更有利的发展。

"在现代世界，非有效人工智能模型可以根据一小部分预选人员收集的一些数据进行培训，而他们一生都在做这个注释。”Megorskaya说道。

现下，Toloka正在构建数据表用以展示工人可能存在的偏见。

“当您进行数据标签时，这些工作表会显示员工拥有的背景类型及可能缺少的背景等信息。”Savage解释道，这对开发人员和研究人员来说特别有帮助，这样他们就可以做出决定，获得下次运行中可能缺失的背景和视角，使模型更具包容性。

尽管每个数据集和模型中都涵盖无数种族、人员背景及经验似乎是一项艰巨的任务。但对此，Savage和Megorskaya强调，对企业、研究人员和开发人员而言，增强公平和负责任的人工智能的最重要的方法就是让尽可能多的主要利益相关者参与进来，因为纠正偏见是比这项工作更困难的任务。

“人工智能很难做到绝对负责和合乎道德，但尽可能贴近这一目标十分重要。”Megorskaya表示，需要拥有尽可能广泛和包容的代表性，以便为工程师提供负责任地有效构建人工智能的最佳工具。