作者 | 李国趸、昆特Alex、战斗系牧师 编辑 | 汽车人原文链接:https://www.zhihu.com/question/540433389
作者 | 李国趸、昆特Alex、战斗系牧师 编辑 | 汽车人
原文链接:https://www.zhihu.com/question/540433389
点击上方“计算机视觉life”,选择“星标”
快速获得最新干货
本文转载自自动驾驶之心
导读
“对深度学习而言,不论是学术研究还是落地应用都需要尽可能提升模型效果,这往往需要trick进行支撑。这些trick有的是广泛适用的,有的是任务特定的。这些trick有的能够提升网络精度,有的能够加速收敛,有的甚至比模型提升更加显著。“本文总结了三位知乎答主的优质回答,分享了他们所收藏积累的一些搞笑tricks。
# 回答一
作者:李国趸
浙江大学硕士生
来源链接:https://www.zhihu.com/question/540433389/answer/2549775065
抛砖引玉(卑微求一个秋招内推求私信):
R-Drop:两次前向+KL loss约束
MLM: 在领域语料上用mlm进一步预训练 (Post-training)
EFL: 少样本下,把分类问题转为匹配问题,把输入构造为NSP任务形式.
混合精度fp16: 加快训练速度,提高训练精度
多卡ddp训练的时候,用到梯度累积时,可以使用no_sync减少不必要的梯度同步,加快速度
对于验证集或者测试集特别大的情况,可以尝试多卡inference,需要用的就是dist.all_gather,对于非张量的话也可以用all_gather_object
PET: 少样本下,把分类转为mask位置预测,并构造verbalizer,参考EACL2021. PET
ArcFaceLoss:双塔句子匹配的loss把NT-Xent loss改成arccos的形式,参考ACL2022. ArcCSE
数据增强在zero shot x-lingual transfer:code switch,machine translation..记得最后加一致性loss,参考consistency regularization for cross lingual finetuning
SimCSE:继续在领域语料上做simcse的预训练
Focal loss: 不平衡的处理
双塔迟交互:maxsim操作:query和doc的每个token表征算相似度,取最大相似度再求和。速度和精度都有一个很好的平衡,参考colbert
持续学习减轻遗忘:EWC方法+一个很强的预训练模型效果很不错。就是加一个正则让重要参数遗忘不太多,重要性用fisher信息度量。
对抗训练:FGM,PGD,能提点,就是训练慢,
memory bank增大bsz,虽然我感觉有时候有点鸡肋
PolyLoss: -logpt + eps * (1-pt) 效果存疑,反正我试了没啥效果,有人试过效果不错
# 回答二
作者:昆特Alex
来源链接:https://www.zhihu.com/question/540433389/answer/2576569581
# 回答三
作者:战斗系牧师
来源链接:https://www.zhihu.com/question/540433389/answer/2551517886
文章仅用于学术分享,如有侵权,请联系删除。
独家重磅课程官网:cvlife.net
全国最大的机器人SLAM开发者社区
技术交流群
— 版权声明 —
本公众号原创内容版权属计算机视觉life所有;从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料,版权属原作者。如果侵权,请联系我们,会及时删除。