青年创业帮是一个专业为创业者提供学习交流的创业网站,主要为网民提供创业项目、创业信息、创业商学院、创业辅导等商机资讯、助您时刻掌握最热行业动态。

当前位置:主页 > 科技创业 > ICLR 2020

ICLR 2020

来源:青年创业帮作者:简万贵更新时间:2020-10-03 09:11:20阅读:

本篇文章1943字,读完约5分钟

本文是对iclr 2020论文“神经切线:Python中快速简单的无限神经网络”的解释,该论文由谷歌编辑。

论文地址:arxiv.org/pdf/1912.02803.pdf

开源地址:github/Google/neural-tangent

深度学习已成功应用于许多领域,如自然语言处理、会话代理和连接组学。这种学习方法改变了机器学习的研究模式,并给研究者带来了许多有趣而重要的开放性问题,例如:为什么深层神经网络即使被过度参数化也能被很好地推广? 深层网络的架构、培训和性能之间有什么关系?如何从深度学习模型中提取显著特征?

ICLR 2020

近年来,该领域的一个重要理论进展是,增加dnn的宽度将带来更多的规则行为,并使这些行为更容易理解。许多最近的结果表明,dnn可以变得无限宽的过程被聚合到另一个更简单的模型类别,称为高斯过程。

在这种限制下,复杂的现象(如贝叶斯推理或卷积神经网络的梯度下降动力学)可以简化为简单的线性代数方程。这些无限宽的网络的一些思想经常被扩展到有限的网络。因此,无限广阔的网络不仅可以作为研究深度学习的一个维度,而且还是一个非常有用的模型。

ICLR 2020


左图:示意图显示了深度神经网络如何在无限宽的条件下生成简单的输入/输出映射。

右:随着神经网络宽度的增加,我们可以看到网络在不同随机情况下的输出分布是高斯分布。

不幸的是,推导有限网络的无限宽度极限需要大量的数学知识,并且必须针对所研究的每个体系结构分别计算。一旦无限宽的模型被导出,它需要高的工程能力来提出有效的和可扩展的实现。总之,将有限宽模型转换成相应的无限宽网络的过程可能需要几个月的时间,这可能是研究论文本身的主题。

ICLR 2020

为了解决这一问题,加速深度学习的理论进程,谷歌研究人员提出了一个新的开源软件库“神经 切线”,它允许研究人员像训练无限宽的神经网络一样容易地构造和训练无限宽的神经网络。其核心是神经切线提供了一个易于使用的神经网络库,可以同时构造有限和无限的神经网络。

ICLR 2020

首先,给出一个神经切线的应用实例,并设想在一些数据上训练一个完全连通的神经网络。通常,神经网络是随机初始化的,然后通过梯度下降进行训练。通过初始化和训练这些神经网络,可以得到一个完整的网络。

研究人员和实践者通常对集成的不同部分的预测进行平均,以获得更好的性能。此外,不确定性可以根据积分不同部分的预测方差来估计。这种方法的缺点是训练一个网络集成需要大量的计算预算,所以这种方法很少使用。然而,当神经网络变得无限宽时,集合用高斯过程描述,并且其均值和方差可以在整个训练过程中计算。

ICLR 2020

使用神经切线,只需要五行代码就可以构建和训练这些无限宽的网络集成!培训过程如下。您可以到以下地址使用本实验的交互式协作笔记本:

colab . sandbox . Google/github/Google/neural-tangents/blob/master/notebooks/neural _ tangents _ cook book . ipynb


在这两幅图中,边肖将有限神经网络集成的训练与相同结构的无限宽度集成进行了比较。前者的经验均值和方差由两条浅黑色虚线之间的黑色虚线表示;后者的封闭形式的均值和方差由填充颜色区域中的彩色线条表示。在这两个图中,有限宽度和无限宽度网络的积分非常接近,以至于很难区分它们。 左:通过训练,输出输入数据(水平x轴)(垂直f轴)。正确:由于培训过程中的不确定因素,导致培训和测试失败。

ICLR 2020

尽管无限宽网络集成由简单的封闭表达式控制,但它与有限宽网络集成显著一致。此外,由于无限宽网络的集成是一个高斯过程,它自然提供了不确定性估计的封闭形式(上图中的颜色区域)。这些不确定性估计与预测的变化非常一致:当训练有限宽网络的大量不同副本时观察到的结果(虚线)。

ICLR 2020

上面的例子显示了无限宽的神经网络捕捉训练动态的能力。然而,通过使用神经切线构造的网络可以应用于任何问题,即,传统的神经网络可以应用于解决这些问题。

例如,cifar-10数据集将用于比较图像识别中三种不同的无限宽神经网络结构。值得注意的是,谷歌研究人员可以在梯度下降和全贝叶斯推理(有限宽网络机制中的一项艰巨任务)下评估高度复杂的模型,如封闭形式的无限宽剩余网络。

ICLR 2020

可以看出,无限宽网络模仿有限宽神经网络,其性能水平与全连通网络相似,但性能比卷积网络差,而卷积网络的性能比宽残差网络差。

然而,与常规训练不同,这些模型的学习动态可以以封闭的形式处理,这使得研究人员对这些模型的行为有了前所未有的了解。雷锋网雷锋网雷锋网(公开号码:雷锋网)

通过ai . googleblog/2020/03/fast-and-easy-infra-wide-networks . html


标题:ICLR 2020

地址:http://www.qdgzw.com/kjcy/32086.html

免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。

返回顶部