社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
Google 最近推出了开源的信息抽取Python库 LangE-20250805092601
【#ChatGPT被指劝分不劝和##OpenAI回应ChatGP-20250806154729
速递|ChatGPT5个月增2亿周活跃用户,有望突破7亿,已有500万付费企业用户
OpenAI发布ChatGPT世代首个开源模型gpt-oss,4060Ti都能跑得动。
1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻
GitHub Trending 日报【2025-08-07】
MEGA-GRU:如何结合股票的时序、截面和关联信息——机器学习系列八
谷歌发布世界模型Genie 3;微软宣布将OpenAI的gpt-oss模型引入Azure AI Fo...
Claude Code安全审查GitHub Action正式发布-20250807084627
1天狂涨2000星,这个AI应用在GitHub爆火!
关注
Py学习
»
机器学习算法
Meta科学家联合发现深度学习新规律,通过数据裁剪可实现指数缩放甚至比例缩放
DeepTech深科技
• 3 年前 • 433 次点击
在机器学习领域,通过扩大模型规模来提高其性能已经得到了许多成功的经验。事实上通过诸如视觉识别、自然语言处理等许多人工智能子领域积累的经验,都观察到一个规律,即深度学习的误差随着训练数据集大小、模型大小或计算量按照幂律规律而减小,这一规律被称为神经缩放定律。
尽管在这一规律的推动下,深度学习的性能在近年来实现了突飞猛进的发展。但是从另一个角度看,这种幂律缩放也导致了巨量的资源消耗,包括数据收集、计算以及能源消耗等各个方面。
而且按照幂律缩放规律来提高深度学习的性能是一种非常不可持续的策略,有时仅仅是为了将误差降低一个百分之一,需要投入的训练数据规模和计算量或许就要增加一个数量级 。
例如,如果希望让某个大型视觉预训练模型在著名的视觉数据集
ImageNet
上的准确度提高几个百分点,有时需要再增加 20 亿个预训练数据点。
▲
图|视觉预训练模型在视觉数据集 ImageNet 上的准确度提高几个百分点,所需的计算量成幂律增加(来源:
arXiv
)
是否有一种方法可以突破幂律缩放规则,而不是像之前那样,误差每降低一个百分点,就需要多收集 10 倍以上的训练样本或计算量呢?
最近,Meta AI 的研究人员发现,通过对训练样本的精心挑选,
原则上可以在规模更小的、经过剪裁的数据集上,通过训练实现同样的性能
,尤其是误差方面。
该研究还证明,指数缩放在理论和实践上都是可实现的,尤为重要的是该论文发现目前普遍认为的误差与模型大小之间呈幂律缩放规律造成了训练数据量的高度冗余。
这一研究由来自斯坦福大学应用物理系的本·索舍尔(
Ben Sorscher
)以及来自德国蒂宾根大学的罗伯特·吉尔霍斯(
Robert Geirhos
)在 Meta AI 实验室实习期间,联合 Meta AI 工程师沙尚克·谢卡尔(
Shashank Shekhar
)等人共同完成。
该研究成果也以《超越神经缩放定律:通过数据剪裁突破幂律缩放规则》(
Beyond neural scaling laws: beating power law scaling via data pruning
)为题的论文发表在了
arXiv
上。
根据该研究,按照以下两条原则对数据进行裁剪,将很可能有效地突破幂律缩放规则。
其一,不同模型的最佳数据裁剪策略是根据初始数据量而变化的,对于初始数据量丰富的模型来说,应保留最困难的样本;而对于那些初始数据稀缺的模型来说,则应当将更简单的样本保留。
其二,通过对初始数据的裁剪,误差随模型大小呈指数缩放是可以实现的;而且可以实现的帕累托最优误差的裁减参数,还可以表达为与初始数据集的大小之间的函数关系。
在这一研究中,数据裁剪的方法不仅从理论上得到了推断,更从实践中得到了验证。研究人员分别在用于视觉识别的多个业界广泛认可的包括 SVHN、CIFAR-10 以及 ImageNet 等数据集上,按照上述方法进行数据裁剪,并对残差神经网络 ResNet 进行训练。
▲图|通过数据剪裁,在 SVHN、CIFAR-10 以及 ImageNet 等数据集上训练残差神经网络 ResNet 模型时,都实现了误差随模型大小呈指数缩放(来源:
arXiv
)
在这些数据集中,都通过数据剪裁实现了误差随模型大小呈指数缩放。
▲图|在 ImageNet 数据集上对 10 种不同的数据裁剪指标进行大规模的基准测试研究(来源:
arXiv
)
此外,研究人员还发现,要想实现指数缩放规律,在数据剪裁过程中寻找到合适的高质量的裁剪指标至关重要。为了更全面地了解如何寻找更高质量的裁剪指标,
研究人员在 ImageNet 数据集上对十种数据裁剪的指标进行了规模较大的基准试验和研究。
不过结果显示,此前已有的裁剪指标,只有计算密集度高的才能实现较好的裁剪效果,而其他计算量相对较少的却效果较差。
▲图|ImageNet 数据集上效果最好的 5 种标签与团队开发的无监督标签的比较(来源:
arXiv
)
为了解决这一问题,研究人员还利用自我监督学习[1] 开发了一种所需计算量更少的更节约成本的无监督数据裁剪指标。这一指标与之前的指标之间有一个巨大的不同点,那就是它不需要标签。
研究人员接下来还对这一新开发的无监督指标进行了实践验证,在 ImageNet 数据集上做数据裁剪之后的训练结果也显示,该无监督指标已能和其他需要标签、且计算量更大的带监督指标中效果最好的指标的表现匹敌。
据了解,研究人员对于该数据裁剪方法在大型以及超大预训练模型上的运用很感兴趣。接下来,将可能在 CLIP、DALLE-2、PALM 等模型中实践和验证。
参考资料:
https://
arxiv
.org/pdf/2106.04560
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/137971
433 次点击
登录后回复