AAAI 2020 HSIC信息瓶颈:不用反向传播的深度学习

基本信息

作者:Wan-Duo Kurt Ma, J.P. Lewis, W. Bastiaan Kleijn

机构:Victoria University

摘要

本文提出了一种不需要反向传播就可以训练深度神经网络的方法,称为HSIC(希尔伯特-施密特独立性准则)信息瓶颈。HSIC信息瓶颈可以缓解反向传播中出现的梯度消失和梯度爆炸问题,从而可以训练非常深的网络而不需要跳过连接。此外,HSIC信息瓶颈也不需要对称的反馈或层间的参数锁定。在MNIST/FashionMNIST/CIFAR10数据集上的实验表明,即使不要求网络输出与标签相似,HSIC信息瓶颈也可以达到与反向传播训练模型相当的分类性能。在HSIC信息瓶颈训练的基础上添加一个单层网络继续用SGD训练(不用反向传播),性能可以进一步提升。

介绍

尽管SGD和反向传播算法目前主导了深度学习,但研究者也探索了其它优化算法,例如:

Kickback:沿着全局单类错误的方向追踪局部梯度
Feedback alignment:显示可以用随机反馈连接训练深度神经网络
Alternating minimization:将嵌套目标分解为子问题,允许层并行更新

但它也存在一些问题,如计算时间长、梯度消失和爆炸、需要层间顺序计算和参数锁定等。与此同时,反向传播也被认为与生物学认知不符。因此研究深度学习的理论和实际替代方案尤为重要。

信息论为学习理论和神经科学研究提供了基础。信息瓶颈(IB)原则将最小充分统计量的概念推广到了表示层之间的信息量损失和保留的权衡上。「但是IB原则在深度神经网络中的计算存在实际困难」,例如输入的连续性导致互信息为无穷,离散化带来的维数灾难等。已有的应用IB原则训练深度神经网络的方法需要对互信息进行近似。

「本文将IB中的互信息量替换为HSIC,后者可以稳健地度量统计(独)立性,时间复杂度仅为」,部分规避了维数灾难。我们提出了HSIC信息瓶颈训练方法,在多个标准分类问题上获得了与反向传播训练性能相当的结果。这为无反向传播深度学习提供了一个可行途径

本文方法

图1展示了HSIC信息瓶颈网络的架构。图1a)是标准的前馈全连接网络,通过HSIC信息瓶颈目标函数进行训练,可以获得最后一层包含分类信息的隐层表示。图1b)展示了多尺度网络架构。其中每个分支HSIC-net_σi都是用特定的σ参数训练的HSIC信息瓶颈网络。汇聚层(Aggregator)对所有分支的输出特征进行平均,形成最终的输出表示,输入到后续的格式化训练中。

多尺度结构的设计原因是:

HSIC计算依赖于核函数的σ参数,不同尺度的σ适合检测不同范围的依赖性多个尺度的HSIC网络融合,可以提供更全面的信息,提升格式化训练的效果所以图1展示了两种架构:单模型的HSIC信息瓶颈网络,以及融合多尺度模型的汇聚结构。它们都避免了反向传播,可以用于无监督表示学习。