社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

只为了就业,纯语言大模型LLM、多模态大模型、生成式模型AIGC选那条路好?

大模型之心Tech • 1 周前 • 40 次点击  

作者 | Cv大法代码酱 编辑 | 大模型之心Tech

原文链接:https://www.zhihu.com/question/15608452195/answer/1941805356612293245

点击下方卡片,关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

>>点击进入→大模型没那么大Tech技术交流群

本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

这问题绝对是今年计算机应届生最焦虑的问题,没有之一。 我这几年面过的人没有一千也有八百,从海外大厂回来的博士到你这样的985硕士,聊得多了,有些话也就憋不住了,今天就发帖子聊聊。

我不跟你扯那些虚头巴脑的行业报告,什么市场规模、增长率,那些东西对你找工作没半毛钱关系。我就从一个在一线带队、看简历、拍板给offer的人的角度,跟你盘盘这几条路。

时间坐标:2025年8月。 这个时间点很重要,因为技术风向标变得太快了,去年的答案今年可能就是个坑。

先摆结论,不卖关子:

all in 多模态。

如果你的目标是就业,特别是找一份有长期价值、不容易被替代、薪资天花板还高的算法岗,就别犹豫,头也不回地扎进多模态。

为什么?我把我的逻辑掰开揉碎了讲给你听,你听完自己品。

我们先看看这三条路现在分别是个什么光景

1. 纯语言大模型(LLM)

LLM现在啥情况?四个字: 基建化、工程化 。

你得明白,2025年的今天,从零开始训一个SOTA级别的基座模型,这事儿已经不是一个普通公司,甚至不是一个普通大厂能玩得起的游戏了。这是巨头的战争,是算力、数据和顶尖人才的无差别火力覆盖。OpenAI、Google、Meta,国内的几家头部,牌桌上就这么几个玩家了。

所以,对于一个应届生,你进去能干嘛?

大概率不是去设计新的Transformer架构,而是去做模型的“下游工作”。具体点:

  • Fine-tuning(微调) :拿别人训好的基座模型,用行业数据做微调,解决特定业务问题。这里面有技术含量,但越来越像个熟练工种。
  • RAG(检索增强生成) :这玩意儿去年火得一塌糊涂,现在基本是标配了。怎么做好embedding、怎么优化检索、怎么减少幻觉,这里面有很多工程上的know-how,但算法的创新空间在缩小。
  • Agent开发 :基于LLM做各种智能体,听起来很酷,但本质是prompt engineering + tool using + a bit of planning。核心还是在“用”模型,而不是“造”模型。
  • 模型压缩、量化、部署 :这些岗位很实在,需求也稳定,但更偏向于模型工程(Model Engineering)或 MLOps,离核心算法越来越远。

你看,纯LLM方向的算法岗,正在快速分化。一小撮人在头部公司的核心团队里继续搞模型结构、预训练算法的创新,这部分人凤毛麟角,门槛高得离谱。而大部分所谓的“LLM算法岗”,正在变得越来越“应用”,越来越“工程”。

薪资上,LLM岗位的下限很高,应届生拿个大白菜、sp不成问题,但天花板…说实话,有点被锁死了。因为你创造的价值,很大程度上依赖于你所使用的那个基座模型,你的“杠杆”不够长。

2. 生成式模型(AIGC)

我得先澄清一下,AIGC这个词太宽泛了,它几乎把前面两个都包进去了。但从业内招聘的角度看,当我们特指“AIGC”方向时,通常更偏向 产品和应用落地 。

比如,你去做一个AI生成PPT的应用,一个AI生成广告视频的平台,或者一个AI辅助编程的工具。

在这些公司里,岗位分得更细。可能有一个小团队负责维护和优化模型,但更多的人是“应用算法工程师”或者干脆就是“后端工程师”,他们的工作是把模型的能力封装成API,嵌入到业务流程里,去打磨产品体验。

这个方向好不好?好,离钱近,业务导向强,能快速看到自己的工作成果。但对你这种想做核心算法的人来说,可能有点“降维”。你可能会花大量时间在处理业务逻辑、数据清洗、API调试上,而不是模型本身。

AIGC方向的薪资,方差很大。在一个成功的商业化产品里,核心成员的收入(薪资+期权)可能非常高。但在一个还没找到盈利模式的创业公司里,可能还不如去大厂拧螺丝。

3. 多模态大模型

好了,说到重点了。多模态,这才是现在真正的蛮荒之地。

为什么我这么笃定?

第一,它是通往AGI的必经之路,是真正的技术前沿。

世界是多模态的,人类的智能也是多模态的。我们看、听、说,同时处理图像、声音、文字信息。纯文本的LLM虽然强大,也只是“缸中之脑”,它理解不了这个真实的世界。从文生图(DALL-E, Midjourney)到文生视频(Sora),再到未来的物理世界交互(机器人、自动驾驶),核心技术突破都必然发生在多模态领域。

这意味着什么?意味着这里有 大量的、根本性的问题还没有被解决 。数据对齐、跨模态表征、长视频生成的一致性、3D世界的理解与生成…每一个都是大金矿,都可能诞生出伟大的公司和技术。

在这个领域,你不是一个“使用者”,你更有可能成为一个“创造者”。你做的东西,不是对现有工作流的优化,而是创造全新的可能性。

第二,技术壁垒高,护城河深。

搞多模态,你不仅要懂NLP,还得懂CV,甚至可能要懂图形学、语音处理。这个知识栈的要求,天然就筛掉了一大批人。LLM的很多知识,看看博客、刷刷论文、跑跑开源代码,似乎很快就能上手。但要真正理解Diffusion Model的数学原理,或者搞懂NeRF(神经辐射场)这种东西,没下苦功夫是不行的。

我之前团队里一个做CV的小伙,在大家一窝蜂转LLM的时候,他坐得住冷板凳,一头扎进了3D生成。当时我们都觉得这方向太窄,不好找工作。结果今年,Sora出来之后,所有大厂都在布局视频和3D生成,他手里的offer拿到手软,给的package比同级别的LLM岗高了至少30%。人家面试官问的都是底层细节,什么DiT架构、视频压缩网络,他都能对答如流。而很多搞LLM应用的同学,面试官问到Transformer的底层优化,就有点支支吾吾了。

这就是壁垒。当潮水褪去,那些只会在岸边捡贝壳的人就尴尬了,而那些学会了深潜的人,才能拿到真正的宝藏。

第三,岗位需求正在爆发,但合格的人才供给严重不足。

现在打开招聘软件看看,搜“多模态算法”,你会发现很多岗位要求都非常高,而且薪资范围也给得非常宽。这说明什么?说明用人单位自己都清楚,这个方向的人不好招。他们愿意为真正懂技术的人才付出高昂的溢价。

LLM方向呢?海量的求职者,大家都会用LangChain,都会做RAG,简历看起来都差不多,那凭什么给你高薪?只能卷项目、卷实习、卷学历。

应用岗和算法岗的区别,以及多模态的应用岗

这个问题也很好。

算法岗 ,说白了,是 生产工具 的人。他们关心的是模型的性能、效率、泛化能力。他们的工作成果通常是模型本身,或者是一篇论文,一个专利。比如,研究一种新的网络结构,让视频生成的时间一致性更好。

应用岗 ,则是 使用工具 的人。他们关心的是如何用现有的模型解决具体的业务问题。他们的工作成果通常是一个上线的功能,一个提升的业务指标。比如,用一个现有的文生图模型,做一个海报自动生成工具,并优化提示词模板,让生成的海报转化率提升5%。

所以,算法岗对技术深度要求高,应用岗对业务理解和工程能力要求高。

那多模态现在有没有应用岗?

当然有,而且越来越多了。视频平台会用多模态模型自动生成视频摘要、打标签、审查违规内容;电商平台用文生图帮助商家快速生成商品图,并通过虚拟试衣提升用户体验;设计类软件把图、文、视频等 AIGC 能力无缝嵌进创作流程,比如 Adobe Firefly;教育领域出现了“AI 老师”,能根据学生的文本提问,动态生成图片或视频解释复杂概念;游戏行业更是热闹,AI 已经能生成 3D 场景、NPC 对话,甚至角色动画,这些应用正成为新的内容生产引擎。

这些岗位,既需要你懂模型,又需要你懂业务,是连接技术和商业的桥梁。对于刚毕业的学生,如果对自己的算法研究能力没那么自信,或者更喜欢做看得见摸得着的产品,这也是一条非常好的路。

如果你想清楚了要搞多模态,下面这几条你听清楚,不是什么人生哲理,就是几条能让你少走弯路的“土办法”。

第一,别把看论文当学习,那顶多算“信息录入”。

看论文这事儿最容易自欺欺人。收藏夹里存个几百篇,感觉自己懂得挺多,面试官一问细节,支支吾吾。这没用。你得找个东西“刻”在脑子里。

怎么刻?你甭管别的,就盯住一个方向,比如现在最火的视频生成。把Sora的技术报告(假如它细节公布了的话)或者相关的开源实现,比如Open-Sora、Latte这种,给我当成你毕业设计的代码那么去读。

你得搞清楚:

  • 人家的数据是怎么洗的?怎么切成patch的?为什么这么切?
  • 那个DiT(Diffusion Transformer)到底是怎么把文本条件加进去的?代码里哪几行是干这个的?
  • 跑起来,你肯定会遇到各种坑,显存爆炸、loss是NaN、生成的东西一坨屎。你就去debug,去一行一行地看,去Github issue里跟人撕逼讨论。这个过程,比你看一百篇论文的摘要都有用。

你得自己动手把一个东西从头到尾跑通,甚至魔改一下。没卡就去租,现在AutoDL、恒源云这种平台一天几十块钱就能搞个不错的卡,这顿饭钱你必须得花,不然你简历上那个“熟悉xxx模型”就是一句空话,一戳就破。

第二,数学和基础别丢。各种新奇的开源项目是好看,但不扎实的数学就像空心楼梯,踩几步就塌。

很多人把公式挂嘴边,显得自己很牛。其实大部分时候,我们根本不需要从头推导一个什么玩意儿。那为啥还要啃数学?

是为了让你在模型出问题的时候,能有方向地去猜,而不是抓瞎。

举个例子,你训个diffusion model,结果生成出来的全是纯纯的噪声,半点图像的影子都没有。这时候你怎么办?如果你懂那个加噪去噪的数学过程,你至少能怀疑几个点:是不是我的time embedding出问题了?是不是U-Net的结构没把噪声和条件信息给解耦开?是不是我用的scheduler在推理的时候步子迈得太大了?

你看,这就是懂和不懂的区别。不懂的人只会反复检查输入数据的格式,然后上网搜“diffusion model训练失败怎么办”。而你,可以直接去看模型里那几个关键模块的中间输出,用数学直觉去定位问题。这才是你比别人牛逼的地方,是你在工作里解决实际问题的能力。

第三,学点交叉领域的硬知识,多模态就是融合能力

别觉着你搞传统深度学习,尤其是PINN这种物理结合的东西,好像跟现在的大模型有点脱节。我告诉你,这恰恰是你最大的优势。

Sora出来以后,大家都在喊“世界模型”。啥是世界模型?不就是用一个统一的模型去模拟我们这个世界的运行规律吗?物理规律,就是这个世界的底层代码啊!

你比那些纯CV、纯NLP出身的人,有一个天然的优势:你习惯用数学和物理的语言去描述问题。你知道怎么把一个微分方程塞进神经网络里,你知道怎么用网络去拟合一个动力学系统。

你有 DNN/PINN 背景是优势,但还不够 。去看些计算机图形学、渲染管线,补点信号处理,搞懂音频怎么表示。这些在你做跨模态任务时,很多坑就能自己填,不用等人救火。

接下来多模态要往哪走?肯定是要跟物理世界、跟交互、跟机器人结合。到时候,怎么让模型理解刚体碰撞?怎么让它生成符合流体力学的水流?这些问题,对纯搞数据驱动的人来说可能很头疼,但对你来说,不就是把PINN那套思想换个壳子用在新问题上吗?所以,千万别丢了你的老本行,要琢磨怎么把它跟你学的新东西结合起来。

第四, 搞清楚自己想成为什么样的人,追求技术深度还是广度。

最后说个最实在的,怎么让自己值钱,或者说,怎么让自己不容易在裁员的时候被优化掉。

两条路,你自己选。

一条路是往深了钻。你就死磕一个问题,成为这个小领域里全公司、甚至全国最懂的那几个人之一。比如说,你就专搞长视频里人物身份一致性的问题,把这个问题相关的几十篇论文、几个开源代码库吃得透透的,谁也别想在这上面糊弄你。公司只要有这个业务需求,第一个想到的就是你,那你就是安全的,也是值钱的。

另一条路是往广了走。你不一定非要精通某个模型的每一个细节,但你得知道现在市面上所有主流的武器(模型)都有啥,各自的优缺点是啥,适合打什么仗(业务场景)。你能把文生图、视频生成、语音识别这些不同的模型,像搭乐高一样组合起来,攒成一个能解决复杂问题的系统。你懂工程,懂部署,能把一个算法demo变成一个几百万人能用的线上服务。这种系统性的能力,同样非常稀缺。

最怕的是啥?卡在中间。深度不够,广度也有限,做的活儿就是调调参、跑跑开源代码,发发实验报告。这种人是最好替代的,因为总有比你更年轻、更便宜、更能卷的毕业生。

前阵子整理电脑,翻出了我压箱底近十年的私藏。这不只是一份书单或课程列表,而是我从一个码农到带头人,一路踩坑验证过的知识体系地图。

从操作系统、网络这些硬核基础,到架构设计,再到算法实战,都帮你串好了。啃下来,地基绝对比别人牢。

分享出来,就是希望能帮你少走弯路,把劲儿使在刀刃上。东西放下面了,自取。

(持续更新中)技术总监收藏夹的学习资源汇总:计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型(https://zhuanlan.zhihu.com/p/1908531890048172986)

就说这些吧,祝好运~

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185918
 
40 次点击