社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
机器学习学术速递[7.25]
警惕!“海莲花”APT组织利用Python官方软件仓库PyPI发起定向“投毒”攻击
可灵AI多图参考生视频模型升级:效果“提升102%”;小鹏机器人新成立智能拟态部,主攻机器人多模态丨...
【2025版附安装包】超详细Python+Pycharm安装保姆级教程,永久免费使用,Python环...
机器学习学术速递[7.28]
一句话克隆 ChatGPT Agent?智谱GLM-4.5首测:零配置,全功能|内有福利
TIGIT公司卖了
10 个实用的 Python 自动化脚本
最近 7 个爆炸火的 GitHub 项目,太优质了。
独家|阿里推出AI医学助手App“氢原子”;京东测试AIGC产品“小星绪”,以情绪驱动漫画故事生成
关注
Py学习
»
Python
BigCode开源轻量级语言模型,仅支持Python、JS和Java
OSC开源社区
• 2 年前 • 422 次点击
出品 | OSC开源社区(ID:oschina2013)
BigCode 是一个开放的科学合作组织,致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型,该模型拥有 11 亿个参数,可以用于 Python、Java 和 JavaScript 这几种编程语言的代码生成和补全建议。
根据官方提供的信息,训练 SantaCoder 的基础是 The Stack(v1.1)数据集,SantaCoder 虽然规模相对较小,只有 11 亿个参数,在参数的绝对数量上低于 InCoder(67 亿)或 CodeGen-multi(27 亿),但 SantaCoder 的表现则是要远好于这些大型多语言模型。不过也正是参数远远不及 GPT-3 等参数超过千亿级别的超大型语言模型,SantaCoder 适用的编程语言范围也比较有限,仅支持 Python、Java 和 JavaScript 三种语言。
为了照顾用户隐私和保证训练质量,在训练模型之前,BigCode 注释了 400 个样本,并建立和不断完善 RegEx 规则,以便在训练前从数据集的代码中删除诸如电子邮件地址、密钥和 IP 地址等敏感信息。
为了让开发者可以放心使用 SantaCoder 生成的代码,BigCode 推出了
Dataset Search
搜索工具。通过这个工具,开发者可以找出代码的来源,以便在 SantaCoder 产生的代码属于某一个项目的情况下,用户能够遵守相应的许可要求。
此外,BigCode 还推出了「Am I in The Stack?」工具,开发者可以检查自己名下的仓库是否是训练数据集的一部分,可以将自己的开源仓库从数据集中删除。
BigCode 目前已经在 Huggingface 网站中提供了 SantaCoder 演示,供任何人研究试用:
https://huggingface.co/spaces/bigcode/santacoder-demo
相关链接:
https://huggingface.co/bigcode/santacoder
END
怎么理解开源世界里的白嫖?
这里有最新开源资讯、软件更新、技术干货等内容
点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/150943
422 次点击
登录后回复