Py学习  »  机器学习算法

[大模型实践] 卡比人贵时代的深度学习经验

自动驾驶之心 • 5 月前 • 84 次点击  


作者 | hzwer 黄哲威 编辑 | 自动驾驶之心

 原文链接:https://zhuanlan.zhihu.com/p/22287171257

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取 自动驾驶近15个方向学习路线
>>点击进入→自动驾驶之心『大模型』技术交流群
本文只做学术分享,如有侵权,联系删文

太长不看版:大模型实验的一些新方法论:
选准关键指标,指导迭代方向。
识别真瓶颈,避免低效实验,验证强假设。
平衡大小实验,大实验找问题,小实验筛想法。
强化团队协作,整合资源,找比较优势。
(总结好像很套话,但真的努力写干货了,欢迎评论交流启发补充

"不要被表象所迷惑,要洞察事物的本质。" —— 亚里士多德

几年前我写过 新手炼丹经验总结,当时背景是卡多,任务小,每天要保证一定的实验吞吐量

这两年虽然大家手上的卡更多了,但是实验从原来几张卡几小时就能跑个效果,变成现在几百张卡几天看一次

于是做实验就需要一些新的方法论

之前的方法论我总结的是:站在巨人肩膀上,注意可复现性、高效实验、防呆实验

在此基础上补充讨论一些:a. 找关键指标 b. 找真瓶颈 c. 大实验和小实验的关系 d. 团队协作

我入行七年多了,现在日常训 10B-100B 大小的语言模型,也有一些小的扩散模型、多模态模型,更大的模型只是参与一些讨论

评测的重要性

论文说自己的方法性能好,一般就是定量部分,要突出关键指标的提升;定性部分,着重强调新的现象和观察

在实验过程中,关键指标往往不是那些你很轻易就接近 SoTA 的指标,而是那些能很明显地区分出 SoTA 和其它方法的指标

如果指标找不好,很可能就整天造超越 GPT4 的新闻,但是永远在追赶 OpenAI

好的指标要能客观反映水平,还要更准确地指示模型迭代的方向

而且更值得警惕的是,当着眼于提高某个指标的时候,可能会让它失效,失去了真正的指示能力

定性实验,呈现结果不是噱头和骗人,可以参考我之前写的 深度学习工作:从追求 SoTA 到揭示新现象

最近传闻训练 GPT5 大小的模型遇到困难,而长链思维 o1 / R1 大火,这都是新的现象和观察,通过实验破除先入为主的迷信,细心观察模型不一样的性质并且利用它,是导致本质提升的基础

另一方面来说,既然一个实验要跑好多天,为了提高成功率当然要多投时间在评测上

这里还有很多自动化工具能加成的工作,我们内部发一个模型,会把几十个榜都自动测了,作者也许看也许不看,我真有很多发现是偶然看别人实验的评测结果后得到的

做性价比高的实验

因为实验代价提高了几个数量级,做有意义的实验显得更重要

如果一天只能做一个实验,切忌起一些性价比不高的实验,同时疏于观察,这都是麻醉自己的方式

宁愿把卡空着,也不要无脑用垃圾实验填充

比如大部分的超参数,如果只是轻微调整一点,很难导致实验性质的根本改变

也有很多做大模型有监督微调的工作,沉迷于研究数据简单配比

过微扰超参数、模型结构,人肉梯度下降,不是大模型的实验方法

胡乱调,性能当然也会有抖动,但我们不是靠盯着抖动来做科研的

可以通过文献阅读,同行讨论,排除那些实验性价比不高的调参;经验、理论足以让我们对大部分超参数选一个不出错的值了,我们要通过实验证实或证伪一些更强假设,而非去网格搜索最优参数

平衡大小实验

因为客观条件限制,很多时候我们只能做小实验,但是只有真的碰大实验,才能知道什么问题是值得做的

我建议:在大实验上找问题,用小实验筛掉错误想法,找有希望的上大实验验证

可能很多小模型的问题换大的模型自然就不存在,也许就没有做小模型的必要;有的任务就是少参数调整学不会,全参数调整就直接能解决,那么这些问题研究的意义就比较小

在做实验的时候,也要清楚我们是在做一个大实验还是小实验?不要既要也要,实验快必定失掉性能上限,大实验必定反馈不够快

团队协作

现在的大模型实验已经复杂到,几个人都很难打通全流程。因此开展工作时,需要搞清楚自己的比较优势,找自己在团队中的定位,也要了解团队在整个社区中的站位

比如说我没空做细致研究,但是我有卡,可能我就是通过读论文找 idea,然后进行超越学术界规模的实验进行验证

如果我卡不够多,我可以先做一些 idea 的简单验证,然后主动找卡多的人合作

在一个团队里,甚至可以尝试说服别人把卡让给自己实验,让别人去做更适合做的事情,或者主动把自己不擅长的事情分给别人

为了更好地团队协作,还可以努力找一些一起观察、记录实验的方式,提高交流频率等等

自动驾驶之心

                                           

论文辅导来啦


知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶世界模型仿真闭环3D检测车道线BEV感知Occupancy多传感器融合多传感器标定目标跟踪)自动驾驶定位建图SLAM高精地图局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试自动驾驶C++BEV感知 BEV模型部署BEV目标跟踪毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪、Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真传感器部署决策规划轨迹预测多个方向学习视频

学习官网:www.zdjszx.com

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183554