青年创业帮是一个专业为创业者提供学习交流的创业网站,主要为网民提供创业项目、创业信息、创业商学院、创业辅导等商机资讯、助您时刻掌握最热行业动态。

当前位置:主页 > 科技创业 > AI算法效率每16个月提速一倍,算力革命超越摩尔定律

AI算法效率每16个月提速一倍,算力革命超越摩尔定律

来源:青年创业帮作者:简万贵更新时间:2020-10-02 02:00:25阅读:

本篇文章2288字,读完约6分钟

边肖|姜宝尚

编辑|群集结束

摩尔定律预测芯片性能将每18个月翻一番,那么人工智能算法将在几个月内翻一番呢?

答案是16个月。

图例:蓝点是给定时间的最低计算机,灰点是测量值。

据观察,业绩每16个月翻一番。最近,openai对人工智能算法在过去几年的性能改进做了详细的分析。他们发现,自2012年以来,在imagenet分类上训练具有相同性能的神经网络所需的计算量每16个月翻一番。

与2012年相比,训练神经网络达到alexnet性能所需的计算量仅为原来的1/44(相比之下,摩尔定律仅降低到1/11)。如果“算法效率”被定义为:减少训练特定任务所需的计算量。我们还可以看到:

在imagenet上,resnet-50级的训练效率在大约17个月内提高了一倍;

在wmt'14的翻译任务中,变压器训练的“算法效率”比seq2seq提高了61倍,约需3年,即加倍时间为6个月;

在执行任务时,阿尔法零号需要阿尔法零号计算的1/8,加倍时间只有4个月;在dota任务中,加倍时间只有25天!!!

所有这些结果表明,对于最近投入大量资金的人工智能任务,算法的进步比硬件的进步(遵循摩尔定律,每18个月翻一番)能产生更多的好处。

如果人工智能和计算趋势与高效计算的概念相结合,其性能如下图所示:在人工智能和计算趋势被分解为硬件效率(摩尔定律)和金钱/并行化之后,算法效率的提高仅占整体提高的一部分。


主要测量指标

如前所述,所使用的度量方法是对现有开源项目的重新实现。

此外,openai还进行了少量的超参数调整和架构间的小规模调整。

使用的计算基于以下结果:

1.pytorch库计算每个图像的浮点运算

2.图片中每个纪元的编号

3.该体系结构的性能优于或等于由openai训练的alexnet模型所需的时间间隔数。

根据openai,它主要遵循pytorch示例模型中建议的超参数。sgd用于每个模型的训练,批量为256,脉冲为0.9,重量衰减为1e-4。对于预处理架构,例如googlenet 和vgg,学习率为0.01,对于其他架构,学习率为0.1。

Resnet-50学习曲线

如图所示,对于alexnet,边肖遵循原始论文的学习速率计划,每30个纪元衰减10次,而其他人将学习速率降低1000倍。

为了检查超级参数设置是否合理,边肖在resnet18上扫描,将初始学习率设置为0.0316、0.1和0.316,总衰减率分别为250倍、1000倍和2500倍。

此外,对于除alexnet之外的所有模型,边肖平滑了学习率,如上图所示,这对早期学习显然非常重要。

在论文中,openai还提到,除了效率之外,还有许多其他的指标可以揭示人工智能领域中算法的整体进展。毕竟,算法还受到底层硬件、硬件利用率和云设施的改进的影响。例如,在低数据系统中,样本效率是关键。在考虑经济效益时,提高gpu、参数和触发器的推理效率也是有意义的。

AI算法效率每16个月提速一倍,算力革命超越摩尔定律

如前所述,从2012年到现在,实现alexnet级性能所需的计算量已经减少到原来的1/44。

此外,边肖还将训练效率的提高分为数据效率和减少每个时间段所需的触发器数量。如下表所示,总的训练效率增益被分解成每个时期的训练周期和每个时期的浮点操作数。

另一个观察是基于触发器的学习曲线。这有助于澄清模型之间的比较。如下图所示,与其他模型相比,某些模型(如shufflenet_v2)可以达到其他模型(如alexnet)可以达到的精度,并且计算量更小。

vgg-11的最大精度比alexnet高,但达到同样精度所需的计算量比alexnet大得多。另一方面,如果综合考虑计算能力和精度,resnet50优于vgg-11,googlenet优于alexnet。第三个观察结果是,resnet-50的分类性能与alexnet相似,而go、dota和机器翻译等任务的效率提高比alexnet快得多。如下表所示,就浮点运算而言,对于给定的任务,其计算效率有不同程度的提高。

AI算法效率每16个月提速一倍,算力革命超越摩尔定律

再放一遍

此外,更详细的观察显示:1)翻译任务在相对较短的时间内取得了比简历更大的进步;2)Go和dota的观察时间相对较短,但只要在未来五年内Go的性能提高三倍,dota提高五倍,其效率增益就可以超过视觉任务。

此外,当使用imagenet完成相关的推理任务时,效率的提高也是显而易见的:

1.shufflenet达到了alexnet级别的性能,推理效率在5年内提高了18倍(在15个月内提高了一倍);

2.efficientnet-b0在三年半的时间里达到了resnet-50的性能,推理效率提高了10倍。


当然,这种计算效率的度量仍然有局限性。

首先,不清楚观察到的效率趋势在多大程度上可以推广到其他人工智能任务。也就是说,在人工智能领域是否存在等同于摩尔定律的“人工智能定律”还不确定。

其次,算法效率的提高只是一种进步的表现,这种分析并不能量化整体的进步。毕竟,人工智能能力的提高是整个概念的表达,而不仅仅是效率的提高。

此外,该分析主要关注模型的最终培训运行成本,而不是总开发成本。

算法中的一些改进使超参数的空值变大,从而使模型的训练更加稳定。另一方面,架构搜索也增加了最终培训运行成本和总开发成本之间的差距。

一般来说,算法改进是推动人工智能进步的关键因素。sota算法效率改进的动态度量将有助于评估算法效率改进的质量,促进人工智能算法的改进。由于硬件和算法效率的提高是相互叠加的,人工智能的发展应该综合考虑两者。

(雷锋网(公开号码:雷锋网)),(雷锋网),(雷锋网)


标题:AI算法效率每16个月提速一倍,算力革命超越摩尔定律

地址:http://www.qdgzw.com/kjcy/31613.html

免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。

返回顶部