1. In-Domain Further Pre-train:利用同领域下的无监督数据继续MLM预训练,这个方法我真的百试不厌,一般用一两百万的数据就能提升1-2个点;2. Within-Task Further Pre-Training:利用不同领域的同任务数据预先精调,选通用一些的一般也有提升;3. Multi-Task Fine-Tuning:利用不同任务预先精调;4. Layer-wise Decreasing Layer Rate:每层学到的知识都是不同的,前面几层会更通用,所以学的时候可以用小一点的学习率,防止灾难性遗忘;5. Features from Different layers:把不同层的输出集成起来,不过这个方法不一定有提升;6. 长文本处理:截断或使用层次化编码。
以上这些方法,都出自复旦邱锡鹏老师的《How to fine-tune BERT for text classification?》,该文进行了各种详细的实验,得出了不少有用的结论,推荐大家去学习。即使有的方法在论文数据集中表现一般,在自己的数据上也可以尝试。