@全村的希望 的回答图像的话直接人眼当CNN用,直接提取特征,别人还在慢吞吞的 transformer 的时候,你已经根据大脑的 attention 给特征标出了自适应权重,这一步直接先领先别人一大截。计算部分也只是麻烦一点点而已,首先先买两个算盘,一般情况下你就双手进行并行运算,算的时候左脑和右脑最好分开运算,这样效率能提升许多。最后还可以把珠子扳开进行半精度运算,也能提升效率,脑子算热了就去顺便洗个头,然后午睡一下清一下脑脊液矩阵乘法就去汤家凤老师那边学一下三行四列的行列式是怎么算的,买本1800多练练计算最后你还不需要调参,这是最关键的,别人还在那边 AdamW 优化学习率,你这边自适应超参,超过 sota 多少仅仅取决于你自适应到什么程度最后关键的是来一个蹭热度的题目:《Rethink whether your brain is all you need》