从“几何深度学习”看深度学习江湖的统一
水木番 发自 凹非寺
你能想象某一天打开深度学习的词条,发现:
深度学习的江湖已经能够被统一了吗?
几何学上的对称性可以玩转整个深度学习吗?
通过对称性和的变换,可以提炼出覆盖CNNs, GNNs, LSTMs, Transformers, DeepSets, mesh CNN等一切你所需构建的架构吗?
不要惊讶,不要怀疑。
一百多年前埃尔兰根大学一位23岁的小伙就给出了答案。
他仅凭一己之力开创的“埃尔兰根计划”,从而在几何学上做出了一项开创性的工作,改变了数学史。
几何学对称问题的源起
在1872年10月,德国的埃尔兰根大学任命了一位新的年轻教授。按照惯例,他被要求提供一个就职研究计划,他以长而乏味的标题Vergleichende Betrachtungen über neuere geometrische Forschungen(“对几何学最新研究的比较评论”)进行了发表。
这位就是菲利克斯·克莱因(Felix Klein),当时他只有23岁,他的开创性工作被称为“埃尔兰根计划”,在数学史上有浓墨重彩的一笔。
十九世纪简直就是几何学的大爆发时代。欧几里得之后的近两千年来,庞塞莱特(Poncelet)构造了投影几何,高斯(Gauss)、波利亚伊(Galys)和洛巴切夫斯基(Lobachevsky)构造了双曲线几何,而黎曼(Riemann)构造了椭圆几何。
克莱因的Erlangen program(埃尔兰根纲领)的突破性体现在研究几何学时运用了结构的对称性。克莱因采用群论的形式来定义此类转换,并采用群及其子群的层次结构来分类由此产生的不同几何形状。
因此,刚性运动会产生传统的欧几里得几何,而仿射或投影变换分别产生仿射和投影几何。
Erlangen program不仅对几何和数学影响非常深远,同时也影响了物理领域,对称性可以从第一原理推导守恒律,即Noether定理。
经过几十年的发展,直到杨振宁和米尔斯在1954年提出的规范不变性的概念的广义形式证明了这一基本原理,成功地统一了除重力以外的所有自然基本力。
这种标准模型已经描述了我们目前所知道的所有物理学知识。
所以啊,还是诺贝尔奖得主物理学家菲利普·安德森(Philip Anderson)的话说得好:
“it is only slightly overstating the case to say that physics is the study of symmetry.”
“说物理学本质上就是研究对称性的,这只是有点夸大其词了。”
目前深度学习领的现状和19世纪的几何情况惊人的类似:
一方面,在过去的十年中,深度学习带来了数据科学的一场革命,并完成了许多以前被认为无法实现的任务:无论是计算机视觉,语音识别,自然语言翻译,还是下围棋。
另一方面,现在存在一个针对不同类型数据的不同神经网络体系结构的“动物园”,但统一的原理很少。这样很难理解不同方法之间的关系,也导致相同概念的多次发明和资源的浪费。
在机器学习中,对称性的重要性实际上早已得到认可。
尤其是在模式识别和计算机视觉的应用中,有关等变特征检测的早期工作可以追溯到Shunichi Amari和Reiner Lenz。
在神经网络文献中,Marvin Minsky和Seymour Papert提出的感知器的群不变性定理对(单层)感知器学习不变性的能力提出了基本限制。
几何深度学习
具体怎么个“统一”,请看采用的“几何深度学习”:
几何深度学习是Michael M. Bronstein,Joan Bruna,Taco Cohen,Petar Veličković 等人中引入的一个笼统术语,指的是类似于Klein的Erlangen program,在几何机器学习上统一的尝试的总称。
它有两个目的:首先,提供一个通用的数学框架以推导最成功的神经网络体系结构;其次,给出一个建设性的过程,并以有原则的方式构建未来的体系结构。
在最简单的情况下,有监督的机器学习本质上是一个函数估计问题:给定训练集上某些未知函数的输出(例如标记的狗和猫图像),人们试图从某个假设函数类别中找到一个适合训练的函数f ,并可以预测以前看不见的输入的输出。
在过去的十年中,大型的、高质量的数据集(如ImageNet)的可用性与不断增长的计算资源(GPU)吻合,从而可以设计功能丰富的类,这些类可以内插此类大型数据集。
神经网络似乎是表征功能的合适选择,因为即使是最简单的体系结构(如Perceptron),仅使用两层时也可以生成密集类的功能,从而可以将任何连续函数近似为任何所需的精度,这种特性称为“通用逼近”(Universal Approximation)。
低维问题的设置是逼近理论中的经典问题,该问题已得到广泛研究,并通过精确的数学方法控制估算误差。但是,在高维度上情况却完全不同:人们可以很快地看到,即使近似一类简单的Lipschitz连续函数,样本数量也随维度呈指数增长,这种现象俗称“维数诅咒”。
由于现代机器学习方法需要处理成千上万甚至数百万个维度的数据,因此维度的诅咒总是在幕后出现,使得我们无法通过朴素的方式进行学习。
△
维度诅咒的图示:为了近似由高斯核构成的Lipschitz连续函数,该函数位于误差为ε的d维单位超立方体(蓝色)的象限中,需要
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。