社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
广电总局启动专项治理!首次将AIGC类、漫画类、表情包类等动画形式纳入监管
Pycharm静态分析不能像我希望的那样推断子类类型
PyCharm Linux系统文件上os.stat异常
公共数据库、DID、双重机器学习、顶刊复刻、质性研究等科研系列课程4.0【13门课程】
王炸神器!它是 Python 生态近十年来最棒的工具。网友:用了就停不下来
MLNLP2025开启报名!第四届机器学习算法与自然语言处理大会开始免费报名,近30场大模型报告等你...
IF=10.1,可能是目前最轻松的3数据库联用?MIMIC+eICU+NWICU,结合机器学习速发文...
陆小飞教授于Digital Studies in Language and Literature发表...
多因子AI机器学习指标:自适应波段量化趋势【通达信指标】学习
2025年,这9个Python GUI 库让我眼前一亮
关注
Py学习
»
Python
BigCode开源轻量级语言模型,仅支持Python、JS和Java
OSC开源社区
• 2 年前 • 486 次点击
出品 | OSC开源社区(ID:oschina2013)
BigCode 是一个开放的科学合作组织,致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型,该模型拥有 11 亿个参数,可以用于 Python、Java 和 JavaScript 这几种编程语言的代码生成和补全建议。
根据官方提供的信息,训练 SantaCoder 的基础是 The Stack(v1.1)数据集,SantaCoder 虽然规模相对较小,只有 11 亿个参数,在参数的绝对数量上低于 InCoder(67 亿)或 CodeGen-multi(27 亿),但 SantaCoder 的表现则是要远好于这些大型多语言模型。不过也正是参数远远不及 GPT-3 等参数超过千亿级别的超大型语言模型,SantaCoder 适用的编程语言范围也比较有限,仅支持 Python、Java 和 JavaScript 三种语言。
为了照顾用户隐私和保证训练质量,在训练模型之前,BigCode 注释了 400 个样本,并建立和不断完善 RegEx 规则,以便在训练前从数据集的代码中删除诸如电子邮件地址、密钥和 IP 地址等敏感信息。
为了让开发者可以放心使用 SantaCoder 生成的代码,BigCode 推出了
Dataset Search
搜索工具。通过这个工具,开发者可以找出代码的来源,以便在 SantaCoder 产生的代码属于某一个项目的情况下,用户能够遵守相应的许可要求。
此外,BigCode 还推出了「Am I in The Stack?」工具,开发者可以检查自己名下的仓库是否是训练数据集的一部分,可以将自己的开源仓库从数据集中删除。
BigCode 目前已经在 Huggingface 网站中提供了 SantaCoder 演示,供任何人研究试用:
https://huggingface.co/spaces/bigcode/santacoder-demo
相关链接:
https://huggingface.co/bigcode/santacoder
END
怎么理解开源世界里的白嫖?
这里有最新开源资讯、软件更新、技术干货等内容
点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/150943
登录后回复