学习如何找到正确的数据

图片来源:Dreamstime

通过克里斯•爱德华兹

发表2022年4月28日，星期四

将好的信息输入人工智能模型并不容易。

这也许是一个迹象，表明在人工智能社区中，钟摆已经向机器学习倾斜了多少，“以数据为中心的人工智能这句话几乎是在重复。

回到暗淡遥远的过去，也就是20年代末th世纪以来，很多人工智能工作都集中在从零开始构建系统，这些系统可以自己对世界进行推理。然后出现了深度学习，尽管仍有人在研究推理风格的人工智能，但大部分注意力都集中在向计算机展示物体的图片或描述，并期望它们学会识别物体的方法上。

2012年，多伦多大学计算机科学教授Geoffrey Hinton及其同事展示了计算机能力的快速进步，这得益于gpu计算能力的提高，可以正确地标记从ImageNet数据集中提取的1000个对象。他们的深度神经网络(DNN)轻松击败了前两次年度ImageNet挑战中占主导地位的AI算法类型。不久之后，瑞士IDSIA研究所的一个研究小组使用DNN在同样的任务上超越了人类:识别路标。所以如何?这个基于计算机的系统能够利用形状和大小上的微妙线索，找出原始图像中大部分被太阳漂白的标志的答案。

从那以后，关于dnn性能出众的说法定期出现，并有证据表明dnn如何欺骗，反过来又很容易被欺骗:通常是出于类似的原因。就像在路标上训练的模型一样，神经网络经常关注人类观察者遗漏的细节;尤其是因为人脑感知图像的细节水平与电脑输入的PNG不同。细微的纹理可以像任何东西一样对机器有帮助，尤其是因为许多研究指出，dnn还不能很好地从图像中提取重要特征，并将它们与特定物体联系起来。很多时候，当被问到“图片里有电脑吗?”或者“正在展示的活动是烹饪的一种吗?”

几年前，弗吉尼亚大学(University of Virginia)的一个研究小组注意到，dnn会比其他场景中更经常出现的事物更有分量，这也许并不出乎意料。这些东西通常与刻板印象有关，主要是因为用于训练模型的图像来自于公开的图像数据库，通常是在搜索引擎的帮助下。因此，数据集可能包含的女性烹饪人数是男性的两倍，并使用这些相关性来得出在显示另一张图像时所看到的答案。

结果呢?机器会在谁在做饭上出错，或者根据照片中人的明显性别不经意地得出错误的答案。这种“方向偏差”是dnn在面对现实世界数据时出现问题的一个来源，也有助于识别当前一代机器学习系统的一个大问题:它们用于训练的数据不够好。

通常情况下，为了将数百万张图片或其他内容输入系统并给它们贴上标签，研究人员会求助于Mechanical Turk和Upwork等众包服务。但是，使用相对廉价的劳动力是有隐性成本的，尤其是那些不太开心或缺乏培训的众包商有时会在标签上出现诋毁和侮辱。

然后数据本身就会出现空白。去年，在普林斯顿大学(Princeton University)信息技术政策中心(Center for Information Technology Policy)的一次演讲中，该大学计算机科学助理教授奥尔加•鲁萨科夫斯基(Olga Russakovsky)描述了西方对许多公共数据集的关注，如何导致在识别像肥皂这样简单的东西时出现错误。鲁萨科夫斯基说，在美国，与液体肥皂相比，肥皂条相对较少，所以模特们可能无法识别它们是肥皂。她补充说:“很多问题都可以追溯到这样一个事实:我们主要从网络上收集所有这些数据，因为这是最便宜、最容易获得的大规模数据来源。”

去年11月，在斯坦福大学(Stanford University)组织的一场以数据为中心的人工智能会议上，该校博士候选人科迪•科尔曼(Cody Coleman)指出:“前所未有的可用数据量对于深度学习最近的许多成功至关重要。然而，大数据也有其自身的问题。它需要计算，需要大量资源，而且通常是冗余的。但当我们考虑现实世界的数据集时，它们往往倾向于少数常见或流行的类别。”

以数据为中心的人工智能运动旨在解决这个问题，方法是更加关注用于训练模型的数据，不仅要避免浪费精力，还要通过提供太多代表或多或少相同内容的来源来扭曲结果。一种方法是让机器学习更具迭代性:数据和模型被反复调优，试图减少错误。问题是这其中有多少可以自动化。向前发展的一个例子是DCBench，它在训练过的模型和用于提供它的数据中寻找差距或偏差的迹象，并使用它来确定解决问题的方法。

在2021年底的NeurIPS会议上，Salesforce Research的一个团队采用了一种“人在环中”的半自动化方法来清除训练数据中的问题，并提出模型可以使用的额外规则。他们发现，更传统的深度学习方法，比如使用对抗性数据来尝试让模型学习正确的模式本身，结果证明比简单地直接在模型中构建规则成本更高。

在dnn似乎给基于规则的人工智能带来死亡之吻十年之后，它正在部分隐藏地回归。“以数据为中心的人工智能”这个术语最终可能会被证明有点用词不当，因为模型设计师会对他们的引擎进行更多的调整，以解决过度依赖数据本身带来的问题。

报名参加E&T新闻电子邮件让像这样的精彩故事每天都发送到你的收件箱。

学习如何找到正确的数据

我们的办公室

英国，总部

中国

印度

香港

美国

我们的场馆

IET伦敦:萨伏伊广场

IET伯明翰:奥斯汀法院

关于IET

会员及注册

职业与学习

情报与研究

事件

beplay体育更新

影响与社会

媒体中心

学习如何找到正确的数据

有关的故事

最近的文章

关于IET

会员及注册

职业与学习

情报与研究

事件

beplay体育更新

影响与社会

媒体中心