Py学习  »  chatgpt

ChatGPT的数据集: 训练并优化自己的ChatGPT模型 || Awesome ChatGPT Dataset!!!

深度学习与图网络 • 2 年前 • 303 次点击  

大家好,介绍一些ChatGPT的数据集,这些数据集能够训练并优化自己的ChatGPT模型。数据集,包括但不限于英语、中文、多语言等多种语言的数据集,以及涵盖各种主题和领域的数据集。

https://github.com/voidful/awesome-chatgpt-dataset/blob/main/README.md

数据集: cc_sbu_align

数据集URL: cc_sbu_align[1]数据集大小: 4K 数据集主要内容:这是MiniGPT-4的数据集,主要语言为英语,采用BSD 3-Clause License。

数据集: SLF5K

数据集URL: SLF5K[2]数据集大小: 5K 数据集主要内容:这是一个英语数据集,包含5K个独特的样本,可以用于抽象概括的任务,采用apache-2.0许可证。

数据集: blended_skill_talk

数据集URL: blended_skill_talk[3]数据集大小: 7K 数据集主要内容:这是一个设计用来展示多种对话模式的数据集,包括展示个性,表现同情,和展示知识。

数据集: GSM-IC

数据集URL: GSM-IC[4]数据集大小: 8K 数据集主要内容:这是一个名为Grade-School Math with Irrelevant Context (GSM-IC)的数据集。

数据集: ChatAlpaca

数据集URL: ChatAlpaca[5]数据集大小: 10K 数据集主要内容:这个数据集目前包含总共10,000个对话,包含95,558个话语,采用Apache-2.0许可证。

这是更多的数据集信息:

数据集: PKU-SafeRLHF-10K

数据集URL: PKU-SafeRLHF-10K[6]数据集大小: 10K 数据集主要内容:这是第一个此类数据集,包含10k个带有安全偏好的实例。

数据集: Dolly

数据集URL: Dolly[7]数据集大小: 15K 数据集主要内容:databricks-dolly-15k是一个由数千名Databricks员工生成的超过15,000条记录的语料库,用于使大型语言模型展示ChatGPT的神奇交互性,采用CC 3.0许可证。

数据集: WebGPT

数据集URL: WebGPT[8]数据集大小: 20K 数据集主要内容:这是WebGPT项目结束时,所有被标记为适合奖励建模的比较的数据集。

数据集: Code Alpaca

数据集URL: Code Alpaca[9]数据集大小: 20K 数据集主要内容:这是一个涉及20,022个样本的代码生成任务的数据集。

数据集: HC3

数据集URL: HC3[10]数据集大小: 37K 数据集主要内容:这是一个由ChatGPT和人类生成的37,175条指令的数据集,主要语言为英语和中文。

好的,这是更多的数据集信息:

数据集: RefGPT

数据集URL: RefGPT[11]数据集大小: 50K 数据集主要内容:这是一个被称为RefGPT的成本有效方法生成的大量高质量多轮Q&A内容的数据集,主要语言为英语和中文。

数据集: Alpaca Dataset

数据集URL: Alpaca Dataset[12]数据集大小: 52K 数据集主要内容:这个数据集包含了由OpenAI API生成的175个种子指令,采用CC By NC 4.0和OpenAI使用条款。

数据集: Alpaca Data Cleaned

数据集URL: Alpaca Data Cleaned[13]数据集大小: 52K 数据集主要内容:这是Alpaca Dataset的修订版本。

数据集: Alpaca GPT-4 Data

数据集URL: Alpaca GPT-4 Data[14]数据集大小: 52K 数据集主要内容:这个数据集是由GPT-4使用Alpaca提示生成的。

数据集: Alpaca GPT-4 Data (Chinese)

数据集URL: Alpaca GPT-4 Data (Chinese)[15]数据集大小: 52K 数据集主要内容:这个数据集是由GPT-4使用由ChatGPT翻译的Alpaca中文提示生成的。

这些只是部分数据集的信息,如果你需要更多的数据集信息,。

参考资料

[1]

cc_sbu_align: https://huggingface.co/datasets/Vision-CAIR/cc_sbu_align

[2]

SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K

[3]

blended_skill_talk: https://huggingface.co/datasets/blended_skill_talk

[4]

GSM-IC: https://github.com/google-research-datasets/GSM-IC

[5]

ChatAlpaca: https://github.com/cascip/ChatAlpaca

[6]

PKU-SafeRLHF-10K: https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K

[7]

Dolly: https://github.com/databrickslabs/dolly/tree/master/data

[8]

WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons

[9]

Code Alpaca: https://github.com/sahil280114/codealpaca

[10]

HC3: https://huggingface.co/datasets/Hello-SimpleAI/HC3

[11]

RefGPT: https://github.com/ziliwangnlp/RefGPT

[12]

Alpaca Dataset: https://github.com/tatsu-lab/stanford_alpaca

[13]

Alpaca Data Cleaned: https://github.com/gururise/AlpacaDataCleaned

[14]

Alpaca GPT-4 Data: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

[15]

Alpaca GPT-4 Data (Chinese): https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/156687