E& T
评论

生物学继续启发人工智能

三位图灵奖得主在英伟达的GTC上聚在一起,讨论人工智能和深度学习的未来方向,以及它如何仍然依赖于模拟大脑。

没有人能保证人工智能需要与生物学中发生的事情相匹配,甚至是受到生物学的启发。与今天流行的方法相比,早期的人工智能研究更多地关注于制造能够更正式地对周围世界进行推理的机器;这包括输入大量的数据,希望训练算法能帮助一个类似的由简单算术块组成的大型网络直观地找出一些复杂的、常见的模式。

“我最大的问题是,我们如何让机器像动物和人类一样学习?我们从人类身上观察到惊人的学习能力,他们可以部分通过观察,部分通过互动,弄清楚世界是如何运转的。这比我们在机器上复制的效率要高得多。基本原则是什么?”Meta首席人工智能科学家Yann LeCun在英伟达秋季GTC大会上组织的一个小组会议上反问道,与会人员包括同为图灵奖得主的蒙特利尔学习算法研究所科学主任Yoshua Bengio和多伦多大学计算机科学教授Geoffrey Hinton。

Hinton说,他花了过去几年的时间,试图找到生物学上可行的学习算法,以适应他称为Glom的视觉识别神经网络架构,这个命名是因为该模型是人工神经元块或胶囊的聚集方式。这与原始的深度学习网络不同,在原始的深度学习网络中,神经元没有被分离出来,这导致了一个问题,即不可能根据系统所看到的动态将神经元组分配到任务的不同部分。

对于生物学上可行的学习,深度学习的基石反向传播——创造梯度,让人工系统从输入中学习——可能必须消失。“我认为这是一个相当安全的打赌,大脑正在以某种方式获得梯度,但我不再相信它在做支撑。”

然而,要找到反向传播的有效替代方案已被证明是困难的。对于Glom,一个答案可能是坚持Hinton认为相当愚蠢的算法,比如强化学习背后的算法,但将其应用于小模块,每个模块只执行有限的一组功能。通过将许多这样的模块添加到一起,就可以实现伸缩。

生物学习的另一个关键属性是,它发生在动物身上是相当自然的:它们观察和做事情,并从经验中学习。这是一个例外,比如聚类算法,机器试图根据它们的属性将类似的元素分组在一起,深度学习在大量数据上所做的很多工作,强调的是大量。唯一的例外是在大型语言模型中,AI更多的是自我监督:它使用它摄取的文本库中的模式,试图推断模式和连接。

“自我监督学习已经完全取代了自然语言处理,”LeCun说。“但它还没有接管计算机视觉,但在这方面有大量的工作,而且进展很快。”

本吉奥说,他最近的工作是研究“大量数据”的问题以及如何避免它。“我一直在关注推广的问题,将其作为一种非分布的推广或推广到非常罕见的情况人类是如何做到这一点的。

“规模是不够的。我们最好的视觉模型,下围棋的模型,或者使用自然语言的模型,所接收的数据比人类需要的要多好几个数量级。目前的语言模型是用一千个生命期的文本进行训练的。在天平的另一端,孩子们可以通过一些例子学习全新的东西,”本吉奥说。

虽然与Glom不同,但本吉奥的工作一直在研究如何设计神经网络来融合更多的结构和模块化,并在这样做的过程中更好地分离所看到的东西,从而可以对每个图像中的不同事物或一段中的概念做出推断。“我们一直在研究基于神经网络的生成模型,它可以表示丰富的组成结构,比如图:这种数据结构到目前为止还不清楚如何用神经网络处理。”

LeCun补充说:“我当然认为扩大规模是必要的,但我也认为这是不够的。我不认为以我们目前的方式加速强化学习,会把我们带到我们在动物和人类身上观察到的那种学习类型。所以我认为我们遗漏了一些重要的东西。”

然而,Hinton并不认为这些组件一定是缺失的,它们只是可能没有以正确的组合方式使用。他说:“有一个谷歌模型可以解释一个笑话为什么有趣,这让我有点震惊。”“我本以为,解释一个笑话为什么好笑,需要我们认为这些模型不具备的东西。”

Hinton认为,即使没有根本性的改变,也有可能产生更好的推理,尽管这可能需要发明一些新的模块,与现有的模块一起工作,使它们更有效地工作。“我不相信如果没有任何根本性的改变,我们就不会走得更远,”他说,而这可能只是涉及到在大型语言模型中已经普遍存在的更多Transformer结构。

“这些东西的效果令人惊讶,以至于我们都对它们的效果感到惊讶,”LeCun表示赞同。“我仍然认为,尽管它们缺少必要的成分。”

一个关键问题是,现有的模型不能很好地处理它们以前没有见过的情况。“我们需要让机器以不受限制的方式进行推理,”LeCun补充道。

本吉奥警告说,解释笑话的人工智能可能收到了比预期更多的暗示。“这些模型是根据如此多的数据训练的,很难知道是否在其他地方没有非常相似的笑话,它的解释也在数据的某个地方。”

本吉奥提出的另一个问题是模型如何处理不确定性。通常情况下,模型对自己的预测非常确定,即使他们应该报告他们不知道。“机器学习领域的一些人已经思考这个问题几十年了。他们在20世纪90年代发明了像高斯过程这样的东西。当神经网络变得庞大时,它们并没有真正地竞争,但它们确实有自己的道理。

“最近,我与一位物理学家进行了一次讨论,他试图用神经网络来发现物理学中存在的现象,但他们对这些现象没有很好的解释,”本吉奥补充说。“他说,‘好吧,如果你给我一个模型,一个能很好地匹配所有数据的神经网络,我是不能接受的。因为,如果有多种理论,而且它们相互矛盾,我可能只是在欺骗自己。”这也就是说,需要有一种比我们目前训练这些东西的方法更丰富的方法来解释不确定性。”

一个答案可能是让模型选择最适合数据的情况。“但如果你考虑一个没有那么多数据的任务,它就会变得严肃得多,”本吉奥说。

这可能是生物学和人工智能需要产生分歧的地方,因为人类的大脑并不总是善于识别他们应该不确定的地方。Hinton在讨论中引用的内克尔立方体就是大脑在对同一图像的两种解读之间切换的一个例子。仔细想想,其实这两种说法都不对。两者都是幻觉。

报名参加E&T新闻电子邮件每天都能收到像这样的好故事。

最近的文章

Baidu
map