社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

BigCode开源轻量级语言模型,仅支持Python、JS和Java

OSC开源社区 • 2 年前 • 486 次点击  
出品 | OSC开源社区(ID:oschina2013)
BigCode 是一个开放的科学合作组织,致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型,该模型拥有 11 亿个参数,可以用于 Python、Java 和 JavaScript 这几种编程语言的代码生成和补全建议。
根据官方提供的信息,训练 SantaCoder 的基础是 The Stack(v1.1)数据集,SantaCoder 虽然规模相对较小,只有 11 亿个参数,在参数的绝对数量上低于 InCoder(67 亿)或 CodeGen-multi(27 亿),但 SantaCoder 的表现则是要远好于这些大型多语言模型。不过也正是参数远远不及 GPT-3 等参数超过千亿级别的超大型语言模型,SantaCoder 适用的编程语言范围也比较有限,仅支持 Python、Java 和 JavaScript 三种语言。
为了照顾用户隐私和保证训练质量,在训练模型之前,BigCode 注释了 400 个样本,并建立和不断完善 RegEx 规则,以便在训练前从数据集的代码中删除诸如电子邮件地址、密钥和 IP 地址等敏感信息。
为了让开发者可以放心使用 SantaCoder 生成的代码,BigCode 推出了 Dataset Search 搜索工具。通过这个工具,开发者可以找出代码的来源,以便在 SantaCoder 产生的代码属于某一个项目的情况下,用户能够遵守相应的许可要求。
此外,BigCode 还推出了「Am I in The Stack?」工具,开发者可以检查自己名下的仓库是否是训练数据集的一部分,可以将自己的开源仓库从数据集中删除。
BigCode 目前已经在 Huggingface 网站中提供了 SantaCoder 演示,供任何人研究试用:https://huggingface.co/spaces/bigcode/santacoder-demo
相关链接:https://huggingface.co/bigcode/santacoder

END



怎么理解开源世界里的白嫖?



这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/150943