这篇文章用更结构化的数据:维基百科和它其中实体来研究自监督训练的能力,而不是应用普通的MLM模型。他们用其他相似类型的实体(如ELECTRA)替换了文本中的实体,模型学习通过上下文来识别这种被替换的句子。通过这种方法,模型被强制学习了现实世界实体的信息,以及它们之间的关系。 这一任务与经典的MLM在预训练时的结合,其能够大大提高Zero-shot实现以及以实体为中心的任务(例如问答和实体输入)的表现。 论文链接:https://openreview.net/pdf?id=BJlzm64tDH 提名奖(Honorable mentions):A Mutual Information Maximization Perspective of Language Representation Learning:https://openreview.net/pdf?id=rkxoh24FPHImproving Neural Language Generation with Spectrum Control:https://openreview.net/pdf?id=ByxY8CNtvrLarge Batch Optimization for Deep Learning: Training BERT in 76 minutes:https://openreview.net/pdf?id=Syx4wnEtvH
这一非传统的文章强有力地分析了注意力机制和卷积网络的共同点。有趣的是,他们找到了比大家先前预想的更多的重合点:他们的证据表明,注意力层通常会使用与CNN相似的像素-网格模式。 以计算机视觉为例,加上详细的数学推导,他们发现Transformer架构或许是CNN的一种推广,因为他们经常学习与CNN相同的模式,甚至因为能够同时学习局部和全局信息而展现出优势。 论文链接:https://openreview.net/pdf?id=HJlnC1rKPB提名奖(Honorable mentions):Deep Learning For Symbolic Mathematics:https://openreview.net/pdf?id=S1eZYeHFDSLogic and the 2-Simplicial Transformer (for Deep RL): 今年的ICLR完美地诠释了一个充满生机的机器学习分支如何走向成熟:模型、训练技术、数据集和应用都得到改进,对于它们的理解也更加牢固。 我们的Transformer模型之旅到这里就结束了,但是这场会议还有许多值得探索的地方。我和团队将继续密切关注相关的座谈会和讲座,并将有意思的看法分享在我们公司的twitter@zetavector上。如果你不想错过,欢迎持续关注。 相关报道:https://towardsdatascience.com/whats-new-for-transformers-at-the-iclr-2020-conference-4285a4294792