没有人真正知道人工智能使用了多少能源

人工智能的绿色雄心背后的全部力量

图片来源:Dreamstime

没有人真正知道人工智能使用了多少能源,但找出答案的需求正变得越来越迫切。

现在是计算领域的大好时机,尤其是如果你在人工智能(AI)上押了重注的话。英伟达首席执行官黄仁勋在公司秋季科技大会开幕式上宣称:“计算机技术正在以惊人的速度发展。推动这枚火箭的引擎是加速计算,燃料是人工智能。”

黄仁勋有充分的理由对人工智能驱动计算的未来感到乐观。十年前,瑞士IDSIA研究所的研究人员采用了由多伦多大学(University of Toronto)计算机科学教授杰弗里·辛顿(Geoffrey Hinton)领导的一个小组开发的深度学习概念,发现他们可以使用图形处理单元(gpu)内的并行计算单元来加快处理速度,gpu原本是为运行3D游戏而开发的。在对深度神经网络进行路标训练后,他们发现该模型可以在形状中发现如此微小的线索,以至于它可以读取几乎完全漂白的表面。

IDSIA的工作不仅有助于深度学习在多大程度上推动人工智能发展,还强调了专业加速器在推动随后的革命方面的重要性,并在越来越大的程度上推动了英伟达的收入。该公司的高端gpu现在被明确设计为加速数据中心中运行的AI模型,而不是第一人称射击游戏。GTC(英伟达GPU技术大会)上不乏宣传人工智能和高速计算是改善生活和应对气候变化的一种方式的演讲者。gpu制造商绝非个例:信息和计算技术(ICT)将通过更好的规划实现整体能源消耗的节约,这已成为一种信条。

Aveva首席执行官Peter Herweck今年早些时候在世界经济论坛(WEF)上描述了这种情况,他是ICT行业许多高管的典型代表:“在工业中开启净零未来的关键是通过数字化改变工业团队的工作方式。如今,通过提供实时数据来优化和更好地自动化工业流程和能源管理的技术,可以实现更高的效率和更雄心勃勃的可持续发展目标。”

理由很简单:你对一个过程了解得越多,你就越能优化它。人工智能提供了一种机制,通过在数据中找到更多的模式来提高这种理解,从而提高效率。两年前,斯德哥尔摩KTH皇家理工学院副教授Ricardo Vinuesa及其同事的研究发现,在许多情况下,人工智能和类似的数据驱动算法可以帮助实现《2030年可持续发展议程》170个目标中的近80%。与此同时,他警告称,随着人工智能的发展,实现上述目标的三分之一也可能变得更加困难。

积极影响的例子并不难找到,特别是在工业控制方面。在过去的几十年里,许多人使用的一个例子是电机,直接数字控制比让基本的交流电机继续旋转和使用齿轮箱来控制输送机和磨床的速度要少得多。

细粒度控制可以扩展到整个设施。工业巨头西门子(Siemens)热衷于建立工厂的整个数字双胞胎,并使用人工智能来管理流程,今年与英伟达(Nvidia)签署了合作协议,以帮助这一进程。英伟达自己展示了仓库的数字双胞胎,使用人工智能和模拟的结合来计算货架的最佳布局,并实时改变输送机器人在空间中的移动方式,使它们不会意外地相互阻塞。

虽然人工智能可以在其帮助控制的机械系统中实现节能,但人工智能的迅猛发展提出了一个问题:一旦将半云半本地的ICT系统的能源消耗考虑在内,这种节能对社会来说能有多大?一个主要的问题是首先计算出计算消耗了多少。

2019年,马萨诸塞大学阿默斯特分校的研究人员艾玛·斯特鲁贝尔和同事们发现,当时最大的神经网络之一的发展将产生650兆瓦时的电力,其排放的二氧化碳相当于5辆汽油车一生中排放的二氧化碳。自那以后,在关于人工智能环境成本的主题演讲和演讲中,这一统计数据被多次提及,但往往遗漏了一个关键细节。

谷歌的工程师在今年3月发表的一篇论文中指出,经常被引用的标题数字并没有区分在选择一个模型的不同变体上进行的大量训练,然后才选择一个显示出足够希望进行全面训练的变体,尽管斯特鲁贝尔的论文确实指出了这种差异。即便如此,定向训练的能源成本仍然可以很容易地以兆瓦时计算。

起初,神经网络训练的计算需求是相当适度的。即使在今天,用于简单计算机视觉应用的各种模型在能量方面仍然相当轻。在测试人工智能能量需求的实验中,来自西雅图艾伦人工智能研究所的一个团队与Strubell等人合作,发现即使是2017年推出的用于计算机视觉的相当大版本的DenseNet神经网络,在大约半小时内训练也需要大约40Wh的能量,大约相当于给10部手机充电。

体型庞大的模特们的数字急剧上升,这些模特因其理解书面文字和将文字与图像联系起来的明显能力而闻名。斯坦福大学以人为本人工智能研究所的研究人员认为这些自然语言处理(NLP)引擎非常重要,他们决定将其称为“基础模型”。

基于谷歌Brain计算机科学家最初开发的Transformer结构,这些网络即使在顶级gpu阵列上也需要几天的时间来训练。BERT-small比OpenAI的GPT-3或DALL-E等引人注目的神经网络要小得多,艾伦研究所的团队花了一天半的时间在8个Nvidia V100 gpu上进行训练,总能量成本是DenseNet的1000倍,为37千瓦时。

艾伦研究所的研究小组无法投入资源来测试一个更大的60亿个参数模型的训练,这个模型比GPT-3小约30倍,但估计需要103.5兆瓦时才能完成这项工作。OpenAI报告称,训练GPT-3需要接近1.3GWh。

为了应对这种不断增长的能源需求,专门为机器学习设计的加速器提高了效率。OpenAI 2020年的一篇论文声称,算法的进步和在DenseNet的前身AlexNet上使用加速器,在7年的时间里将训练的计算成本降低了44倍。同样,在今年春天发表的一篇论文中,谷歌Brain的工程师指出了专用神经网络加速器(如该公司自己的张量处理单元)所取得的进展。他们认为,他们的一万亿个参数GLaM语言模型所消耗的能量大约是训练GPT-3所需能量的三分之一。由此产生的需求仍然相当于一个小镇每天的电力供应。

尽管比寻找深度学习架构更常见,但有利于训练的一个因素是,它不是一个日常过程。自动驾驶等一些应用程序可能需要定期、甚至每天更新模型,然后下载到车队中。在许多情况下,再培训可能是一个更受限制和更少能源密集型的过程,并将在一个大型舰队中摊销。

类似地,英伟达希望向客户出售自己的超大型NLP引擎Megatron-BERT,但并不指望客户能够完全训练它。基础模型受益于对特定任务的微调过程,其消耗的数据和计算时间远远少于原始训练。通常情况下,这个过程只需要初始训练所需能量的10%。

大多数时候,神经网络模型将被用于推理:根据它已经训练过的内容分析输入。亚马逊网络服务(Amazon Web Services)在2020年声称,推理占人工智能基础设施成本的90%。然而,相对较少的研究涉及人工智能推理的能源使用,尽管结果表明消耗是高度可变的。

“在我们的碳足迹表征中,推理主导了通用语言模型的总体碳足迹,而对于深度学习推荐任务,训练和推理之间的碳足迹大致相当,”Meta研究科学家carle - jean Wu在夏天的MLSys会议上说。

瓦伦西亚人工智能研究所(VRAIN)的博士后研究员Fernando Martínez-Plumed及其同事在2021年的一项研究中发现,能量差异的一个重要因素在于模型的准确性。2012年性能最好的计算机视觉模型需要大约20亿个浮点运算(2GFLOPs)来执行一次传递,尽管这比目前最好的模型精度要低。在展示测试图像时,旧模型的正确率为60%。从2021年开始,一个更大、准确率达90%的模型需要超过3000 gflops。一个精度达到80%的现代模型将开销降低到100GFLOPs。

E& T

与训练一样,一代又一代的加速器有助于防止推断能量增长过快,并提供了更便宜地部署复杂模型的方法。根据VRAIN的分析,简化的数据格式,例如专门为神经网络设计的16位操作,以取代传统的32位ieee标准格式,可以将以每秒每瓦数十亿浮点运算(GFLOPS/W)衡量的效率提高到1000,而全精度计算的效率为100或更少。最重要的是,由于硬件调整,整体硬件效率得到了提高。即使在相同的精度下,与2011年相比,2021年加速器和gpu提供的GFLOPS/W增加了10倍。

更高层次的重组回报更大。吴在MLSys上概述了该公司的人工智能业务试图减少每个模型所需的循环次数的过程。其中包括重新检查基础模型的结构和削减它们所需的内存量,这将转化为大量的电力节省。她说,这项技术并不是为了最小化碳足迹而设计的,但它提供了一种节约的方法。

VRAIN的研究人员发现,由于使用了加速和其他快捷方式,将其投入生产的模型更有可能在全球范围内被复制数千或数百万个实例,这往往比那些立即成为头条新闻的模型更有效率。但节约也会带来负面影响。

“提高效率可以转化为更多的用途。这也被称为杰文斯悖论:效率的提高可以鼓励更高的使用,从而导致更高的整体资源消耗。因此,尽管我们可以实现更高的性能效率,但机器学习任务的总体足迹仍在随着时间的推移而不断增加,”Wu说。

自动化的汽车

图片来源:Dreamstime

更高效的硬件可能会推动人工智能支持各种形式的杰文斯悖论。自动驾驶汽车的兴起可以提高交通效率,减少污染,电气化将有助于这一过程。但一些研究人员认为,这可能会导致使用量增加,甚至取代其他可能污染更少的交通方式。

2020年,苏黎世联邦理工学院(ETH Zurich)学者弗拉德·科罗玛(Vlad Coroama)和在KTH工作的丹尼尔·帕格曼(Daniel Pargman)提出了“技能反弹”一词来描述这种形式的杰文斯悖论:人们被锁在使用某种东西之外,发现一旦它被自动化了,他们就能使用它。有了自动驾驶汽车,孩子和老人可以叫一辆他们现在不能驾驶的汽车,而那些想在去目的地的路上工作的人也可以这样做。由于新一代个人飞机的出现,道路使用率甚至航空旅行都可能增加,有可能取代更节能但对个人来说不太方便的选择。就像信息通信技术对全球能源使用和碳足迹的整体贡献一样,目前很难衡量这种影响有多大。

兰卡斯特大学(Lancaster University)一个团队2021年的一项研究估计,ICT对全球温室气体排放的贡献在2%至3%之间,可能高达4%。一些人认为,这一比例在未来几年很容易达到20%。但实际上,还没有人知道。兰卡斯特大学的研究人员和其他人呼吁大型ICT用户更多地使用测量和透明度,一些团队已经发布了工具来帮助这一过程。

兰卡斯特大学讲师Kelly Widdicks说:“我们需要鼓励ICT行业解决自身的排放和其他环境影响。”“我们需要采取更具凝聚力的方法,考虑整个生命周期和所有排放范围,而不是目前只关注效率和使用阶段的排放。精确的测量非常困难,而回弹效应使得ICT的影响更加难以估计,但该行业不应通过试图获得准确的排放数值来拖延减少其影响的努力。”

报名参加E&T新闻电子邮件让像这样的精彩故事每天都发送到你的收件箱。

最近的文章

Baidu
map