Py学习  »  chatgpt

极市直播预告|低成本微调垂直领域专属 ChatGPT

极市平台 • 11 月前 • 145 次点击  
↑ 点击蓝字 关注极市平台

|极市线上分享第114期 |

一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过100位技术大咖嘉宾,并完成了113期极市线上直播分享。

往期分享请前往bbs.cvmart.net/topics/149或直接阅读原文,也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享,与大家一起交流学习~~

尽管 ChatGPT 展现了惊人的能力,但其高昂的训练成本以及需要大量的训练数据等要求,对于想要进入该领域的人来说形成了一系列难以逾越的障碍。一方面,对于普通人和小规模企业来说,从头开始进行预训练的成本是无法承受的。另一方面,基于 API 的黑盒封装并不能完全解决问题。虽然使用 API 可以很容易地开发自己的应用,但其使用效果和自定义程度往往无法满足需求。因此,从头开始预训练和基于 API 开发都不是最佳的解决方案。大模型微调作为一种成本较低且支持白盒定制化模型的解决方案,被越来越多人所看重。并且伴随着 LLaMA 等一系列强大基座模型的开源,引发了一波微调大模型的浪潮。
本次分享将介绍如何低成本微调一个垂直领域专属 ChatGPT,来满足个人和中小企业的需求。

01

直播信息

时间

2023年6月1日(周四):20:00-21:00


主题

低成本微调垂直领域专属 ChatGPT
直播

B站也将同步进行

http://live.bilibili.com/3344545

02

嘉宾介绍

刁诗哲

香港科技大学统计与机器学习实验室博士生,研究方向自然语言处理、大语言模型的预训练、微调和领域自适应。大模型微调框架 LMFlow 的主要开发者。


03

关于分享

➤分享大纲

1.大模型微调常见方法和步骤

2.低成本微调大模型的全流程框架 LMFlow

3.一种全自动可扩展的模型评测基准 LMFlow Benchmark

4.一种全新、高效、稳定的对齐算法 RAFT

论文

LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models.

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

paper:https://readpaper.com/paper/4745517392856104961?channel=OpenMMLab

https://arxiv.org/abs/2304.06767

code:https://github.com/OptimalScale/LMFlow

本次分享将介绍如何低成本微调一个垂直领域专属 ChatGPT,来满足个人和中小企业的需求。

首先,我们会介绍当前大模型发展的现状,包括其在现实领域中的广泛应用。

接下来会重点介绍我们最近研发的一个低成本微调全流程框架 LMFlow,支持用户方便地进行多种微调操作。典型案例包括仅需一张消费级显卡(例如 3090),即可在五个小时的时间内完成个性化指令微调。不仅如此,在特定的专家领域(以医疗为例),只需微调 6 个 A100 * 天,就能够获得和 ChatGPT 相当甚至更好的效果。

值得注意的是,ChatGPT 则具有 1750 亿的参数量,而这里性能相当的最小模型规模只有不到二十分之一,大大节约计算资源。同时我们会介绍最新的一个自动化评测基准 LMFlow Benchmark,基于 negative log likelihood 自动对微调模型进行评估,具有完全透明、自动化和灵活可扩展的优势。

LMFlow 的最终目的是帮助每个人都可以用尽量少的资源来训练一个专有领域的、个性化的大模型,以此来推进大模型的研究和应用落地。我们也欢迎更多开源爱好者、研究人员加入我们一起推动大模型微调的工作。

此外,我们还会介绍一种全新、高效、稳定的对齐算法——RAFT。PPO 等强化学习算法高度依赖反向梯度计算,导致训练代价较高,并且由于强化学习通常具有较多的超参数, 导致其训练过程具有较高的不稳定性。相比之下,RAFT 算法通过使用奖励模型对大规模生成模型的生成样本进行排序,筛选得到符合用户偏好和价值的样本,并基于这些样本微调一个对人类更友好的 AI 模型。

具体而言,RAFT 分为三个核心步骤:

  • 数据收集:数据收集可以利用正在训练的生成模型作为生成器,也可以利用预训练模型(例如 LLaMA、ChatGPT,甚至人类)和训练模型的混合模型作为生成器,有利于提升数据生成的多样性和质量。

  • 数据排序:一般在 RLHF 中我们都拥有一个与目标需求对齐的分类器或者回归器,从而筛选出最符合人类需求的样本。

  • 模型微调:利用最符合人类需求的样本来实现模型的微调,使得训练之后的模型能够与人类需求相匹配。

在 RAFT 算法中,模型利用了更多次采样(当下采样后用以精调的样本一定时),和更少次梯度计算(因为大部分低质量数据被 reward 函数筛选掉了),让模型更加稳定和鲁棒。

同时,在某些情况下, 由于有监督微调本身对于超参数敏感性更低, 有更稳健的收敛性, 在相同 reward 情况下,RAFT可以拥有更好的困惑度(perplexity, 对应其生成多样性和流畅性更好)。

除了在语言模型上的对齐能力以外,我们还在扩散模型上验证了文生图的对齐能力,这是之前 PPO 算法无法做到的事情。


04

参与方式

05

往期回顾

极市平台专注分享计算机视觉前沿资讯和技术干货,特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验,目前已成功举办113期线上分享。近期在线分享可点击以下标题查看:


更多往期分享请浏览:极市计算机视觉技术分享集锦

http://bbs.cvmart.net/topics/149/cvshare),也可以点击阅读原文获取。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/155715
 
145 次点击