基于语言模型的少样本学习 / 深度学习优化器基准测试

在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 AI 前沿成果。如果你也希望让自己的科研成果被更多人看到，欢迎在后台回复「论文推荐」。

本期编辑 | 张一帆

选文推荐 | PW内容团队

01.

少样本学习

论文标题：

True Few-Shot Learning with Language Models

论文链接：

https://arxiv.org/abs/2105.11447

代码链接：

https://github.com/ethanjperez/true_few_shot

预训练语言模型 (LM) 在许多任务中表现良好，即使是从少数样本中学习，但之前的工作用许多保留样本微调学习的各方面，如超参数、训练目标和自然语言模板（“提示“）。本文评估了保留样本不可用时，语言模型的少样本能力，并把这种设置称为真少样本学习。测试了两种模型选择标准，交叉验证和最小描述长度，用于在真少样本学习环境中选择语言模型的提示和超参数。

平均来说，这两种方法都略优于随机选择，大大低于基于保留样本的选择。此外，选择标准往往倾向于选择那些表现明显比随机选择更差的模型。即使考虑到在选择过程中对模型真实性能的不确定性，以及改变用于选择的计算量和样本数量，也发现了类似的结果。研究结果表明，考虑到少样本模型选择的难度，之前的工作大大高估了语言模型的真少样本能力。

02.

深度学习优化器

论文标题：

Descending through a Crowded Valley -- Benchmarking Deep Learning Optimizers

论文链接：

https://arxiv.org/abs/2007.01547

代码链接：

https://github.com/SirRob1997/Crowded-Valley---Results

选择优化器被认为是深度学习中最关键的设计决策之一，但这并非易事。现在，越来越多的文献列出了数百种优化方法。在缺乏明确的理论指导和确凿的经验证据的情况下，该决定通常是根据经验做出的。在这项工作中我们的目标是，如果不是最终结论，那么至少要用证据支持的启发式方法来代替这些经验。为此，我们对 15 种特别受欢迎的深度学习优化器进行了广泛的标准化基准测试，同时简要概述了各种可能的选择。

通过分析 50,000 多个单独的实验，本文的贡献主要有三点：1）优化器的性能在各个任务之间差异很大；2）我们观察到，使用默认参数评估多个优化器的效果与调整单个固定优化器的超参数大致相同；3）虽然我们无法辨别出在所有测试任务中都明显占据主导地位的优化方法，但我们发现了一个大大减少的特定优化器和参数选择的子集，只需要在这些子集中搜索也通常会在我们的实验中带来可比的结果。ADAM 具有非常好的性能，新方法无法始终胜过它。我们的开源结果可作为具有挑战性和经过精心调校的基准来使用，可对新型优化方法进行更有意义的评估，而无需进行任何进一步的计算工作。

03.

深度强化学习

论文标题：

Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research

收录会议：

ICML 2021

论文链接：

http://arxiv.org/abs/2011.14826

代码链接：

https://github.com/JohanSamir/revisiting_rainbow

自从 DQN 引入以来，绝大多数强化学习研究都集中在使用深度神经网络作为函数逼近器的强化学习上。现有工作通常会在目前已成为标准的一组环境中评估新方法，例如 Atari 2600 游戏。虽然这些基准有助于标准化评估，但不幸的是，它们的计算成本会扩大具有充足计算资源访问权限的人与没有足够资源访问计算资源的人之间的差距。

在这项工作中，我们认为，尽管社区强调大型环境，但传统的小型环境仍然可以产生有价值的科学见解，并且可以帮助减少贫困研究者的进入社区的障碍。为了证实我们的主张，我们根据经验重新审视了介绍 Rainbow 算法的论文，并对 Rainbow 使用的算法提出了一些新见解。

04.

大规模人像照片润色数据集

论文标题：

PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency

收录会议：

CVPR 2021

论文链接：

https://arxiv.org/abs/2105.09180

代码链接：

https://github.com/csjliang/PPR10K

与一般的照片润色任务不同，人像照片润色 (PPR) 的目的，是提高平面人像照片集合的视觉质量，有其特殊的实际要求，如人像区域优先 (HRP) 和组一致性 (GLC)。HRP 要求对人像区域给予更多关注，而 GLC 则要求将一组人像照片润色成一致色调。然而，在现有的一般照片润色数据集上训练的模型，很难满足 PPR 的这些要求。

为促进这一高频任务的研究，构建了一个大规模的 PPR 数据集 PPR10K，包含 1,681 组、11,161 张高质量的原始人像照片。提供了高分辨率的人像区域分割掩模。每张原始照片由三位专家进行润色，并精心调整每组照片，使其色调一致。定义了一套评估PPR性能的客观措施，提出了学习具有良好 HRP 和 GLC 性能的 PPR 模型的策略。构建的 PPR10K 数据集为研究自动 PPR 方法提供了一个很好的基准，实验证明，所提出的学习策略能够有效地提高润色性能。

05.

逻辑回归

论文标题：

SLOE: A Faster Method for Statistical Inference in High-Dimensional Logistic Regression

论文链接：

https://arxiv.org/abs/2103.12725

代码链接：

https://github.com/google-research/sloe-logistic

逻辑回归仍然是应用统计学、机器学习和数据科学中最广泛使用的工具之一。然而，在中等高维的问题中，特征的数量是样本容量的不可忽略的一部分，logistic 回归最大似然估计 (MLE)，以及基于其分布的大样本近似的统计程序，表现很差。最近，Sur 和 Cand 'es 证明了这些问题可以通过应用一种新的 MLE 抽样分布的近似来纠正。不幸的是，这些修正在实践中很难实现，因为它们需要信号强度的估计，而信号强度是 logistic 回归的基础参数 β 的函数。

为了解决这个问题，我们提出了 SLOE，一种快速而直接的方法来估计 logistic 回归中的信号强度。SLOE 的关键见解是，Sur 和 Cand 'es [2019] 修正可以是被破坏信号强度的重新参数化项，这只是估计 parameterŝβ 的函数。我们提出了这个量的一个估计，证明了它在相应的高维区域是一致的，并证明了在有限样本中使用 SLOE 进行维数修正是准确的。与现有的 ProbeFrontier 启发式算法相比，SLOE 在概念上更简单，速度快几个数量级，适合常规使用。我们演示了常规维数校正在 UCI 存储库心脏病数据中的重要性，以及使用英国生物库数据的基因组学应用。

06.

多目标跟踪

论文标题：

SiamMOT: Siamese Multi-Object Tracking

收录会议：

CVPR 2021

论文链接：

https://arxiv.org/abs/2105.11595

代码链接：

https://github.com/amazon-research/siam-mot

在本文中，我们着重于改进在线多目标跟踪 (MOT)。特别地，我们引入了一个基于区域的 Siamese 多目标跟踪网络，我们将其命名为 SiamMOT。SiamMOT 包括一个运动模型，估计实例在两帧之间的移动，使检测实例相关联。为了探索运动建模如何影响其跟踪能力，我们提出了 Siamese 跟踪器的两种变体，一种是隐式建模运动，另一种是显式建模。

我们在三个不同的 MOT 数据集上进行了广泛的定量实验：MOT17、 TAO-person 和 Caltech Roadside Pedestrians，显示了运动建模对 MOT 的重要性，以及 SiamMOT 大大优于最先进的能力。最后，SiamMOT 在 HiEve 数据集上的表现也超过了 ACMMM 的 20HiEve 大挑战的获胜者。此外，SiamMOT 是高效的，它在一个现代 GPU 上为 720P 视频以 17FPS 的速度运行。

07.

图像可记忆性估计

论文标题：

Embracing New Techniques in Deep Learning for Estimating Image Memorability

论文链接：

https://arxiv.org/abs/2105.10598

多项工作表明，图像的可记忆性在不同人之间是一致的，因此可以被视为图像的内在属性。使用计算机视觉模型，可以对人们将记住或忘记的东西做出具体预测。虽然较早的工作是用现在已过时的深度学习架构预测图像的记忆性，但该领域的创新给了我们新的技术来应用于这个问题。

本文提出并评估了五个备选的深度学习模型，利用该领域过去五年的发展，主要引入了残差神经网络，目的是让模型在记忆性估计过程中使用语义信息。这些新的模型与之前的技术水平进行了测试，并建立了一个组合数据集，以优化类别内和跨类别的预测。研究结果表明，之前的主流记忆性网络夸大了通用性，对训练集过拟合。新模型优于之前模型，在记忆性回归中，残差网络优于更简单的卷积神经网络。

08.

文本生成

论文标题：

Unifying Vision-and-Language Tasks via Text Generation

收录会议：

ICML 2021

论文链接：

https://arxiv.org/abs/2102.02779

代码链接：

https://github.com/j-min/VL-T5

本文提出了一个框架对于由视频加文本、语音或音频组成的多模态输入生成文本这种任务。为了利用 transformer networks，每个模态通过一个可学习的分词器首先转换为一组语言嵌入。这将使得我们的方法可以在语言空间执行多模态融合，从而消除了对特定的跨模态融合模块的需要。为了解决在连续输入（例如视频或音频）上分词的不可微性，我们利用了一种近似方案，该方案可进行端到端训练。

进一步地，不像先前的只有 encoder 的模型。本文提出的网络包括一个自回归的 decoder 来生成开放式结尾的文本。同时在语言空间执行多模态融合，这使我们的方法完全具有生成性，并使其直接适用于不同的“video + x to text“问题，而无需为每个任务设计专门的网络。本文提出的框架不仅概念简单，而且效果显着。实验在多个任务上上实现了最好的性能，而且本文提出的方法不需要任何的预训练任务。

09.

视觉表示

论文标题：

Visual representation of negation: Real world data analysis on comic image design

论文链接：

https://arxiv.org/abs/2105.10131

有一种广泛的观点认为视觉表示（例如照片和插图）没有描述否定，例如，对于文本我们可以用“火车不来“来表达的否定。但是通过分析照片或者插图我们并不能得到类似的否定的观点。

在使用图像字幕任务的实验中，我们给了人们漫画插图，并要求他们解释他们可以从中读到什么。收集到的数据表明，一些漫画插图可以在没有任何序列（多个面板）或常规设备（特殊符号）帮助的情况下描绘否定词。我们对该漫画插图进行了进一步的实验，将图像分为包含否定的图像和不包含否定的图像。虽然这种图像分类对人类来说很容易，但是对于数据驱动的机器（即深度学习模型（CNN））来说，要实现相同的高性能是很困难的。根据观察，我们认为一些漫画插图唤起了背景知识，因此可以用纯粹的视觉元素来描绘否定词。

10.

视觉Transformer

论文标题：

Intriguing Properties of Vision Transformers

论文链接：

https://arxiv.org/abs/2105.10497

代码链接：

https://github.com/Muzammal-Naseer/Intriguing-Properties-of-Vision-Transformers

视觉 Transformer（ViT）在各种机器视觉问题上均表现出令人印象深刻的性能。这些模型基于 multi-head 自注意力机制，该机制可以灵活地处理一系列图像 patches 以对上下文 cues 进行编码。一个重要的问题是，在以给定 patch 为条件的图像范围内，如何灵活地处理自然图像中的烦扰，例如严重的遮挡，域移位，空间排列，对抗性和自然扰动。

我们通过涵盖三个 ViT 系列的大量实验，以及与高性能卷积神经网络（CNN）的比较，系统地研究了这个问题。我们显示并分析了 ViT 的以下吸引人的特性：

1. Transformer 对严重的遮挡，扰动和域偏移具有很高的鲁棒性，例如，即使随机遮挡了 80％的图像，在 ImageNet 上仍可保持高达 60％的 top-1 精度；

2. 遮挡的强大性能并不是由于偏向局部纹理，与 CNN 相比，ViT 对纹理的偏向要小得多。当经过适当训练以对基于形状的特征进行编码时，ViT 可以展现出与人类视觉系统相当的形状识别能力，这在文献中是前所未有的；

3. 使用 ViT 对形状表示进行编码会导致有趣的结果，即在没有像素级监督的情况下进行精确的语义分割；

4. 可以将单个 ViT 模型的现成特征进行组合以创建特征 ensemble，从而在传统学习模型和少量学习模型中的一系列分类数据集上实现较高的准确率。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

基于语言模型的少样本学习 / 深度学习优化器基准测试 | 本周值得读