社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

机器学习学术速递[7.23]

罗氏半年报：终止开发TIGIT抗体、PD-1/IL-2

机器学习学术速递[7.24]

机器学习学术速递[7.25]

罗氏正式放弃TIGIT疗法

警惕！“海莲花”APT组织利用Python官方软件仓库PyPI发起定向“投毒”攻击

20个非常有用的Python单行代码

【2025版附安装包】超详细Python+Pycharm安装保姆级教程，永久免费使用，Python环...

关注

Py学习 » Git

通过gating logit归一化和自适应辅助损失系数两种新技术-20240613054409

爱可可-爱生活 • 1 年前 • 204 次点击

通过gating logit归一化和自适应辅助损失系数两种新技术，训练了性能强劲的Skywork-MoE模型，为大规模MoE语言模型的训练提供了有益探索。

[CL]《Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models》T Wei, B Zhu, L Zhao, C Cheng... [Kunlun Inc] (2024)

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/171183

204 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)