社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT时代,数据标注员还在搬砖|焦点分析

36氪 • 1 年前 • 309 次点击  

他们从来不是受害者,也不是需要人同情的弱者,而是一群努力、勤奋工作的普通人。



袁斯来

编辑苏建勋

来源|智能涌现(ID:AIEmergence)

封面来源IC photo

肯尼亚内罗毕,一群年轻人挤在逼仄的办公室,埋头在电脑上阅读一段段来自大洋彼岸OpenAI的英文字符。

他们工作的9小时中,要阅读、标注150-200段文字,每段文字在100-1000个单词之间。而这群人的薪水是每小时1.32-2美元。

当你和Bard和ChatGPT聊天时或许并不知道,它给出的每一个机智答案背后,都凝聚着无数数据标注员的血汗。

很少有人关注标注员,也很少有人深究他们的工作。然而,标注员是AI产业链极其重要的一环。在他们一次次枯燥、乏味的工作后,AI模型变得越来越聪明。这群人有不同的工资和待遇,共同点是重复着同一份机械、辛劳的工作。他们就是AI时代的流水线工人。

近日,谷歌一份内部文件曝光。文件显示,Bard的标注员要在3分钟内审阅、标注完Bard的回答。这些数以千计的外包工,在deadline重压之下吃力地阅读自己完全不熟悉的专业文字,一个小时挣14美元。

“人们感到害怕、压力大、挣得太少,而且完全不知道正在发生什么。”一位外包标注员这样形容自己的生活。

数量上百万的标注员遍布全球,很多都是外包工,在零工经济中赚取微薄的薪水。他们参与每一轮AI浪潮,又离台前光鲜性感的故事极其遥远。行业人士为ChatGPT和大模型将如何革新世界侃侃而谈,而这群标注员生活却没有任何改变,他们仍然“隐身”,甚至生存状况更糟糕。
大战之下的小兵

谷歌正处于久违的危机中。在生成式AI竞赛中,谷歌已然落后于OpenAI。

被颠覆式创新扔到大潮之后的恐惧笼罩谷歌,以至于内部一度发布极其罕见的红色警报(red code )。CEO Sundar Pichai亲自上阵,全权负责AI业务。

在2月季度财报的电话会议上,Pichai告诉投资者:“接下来你们会很快看到谷歌的动作。”

接着,它们匆忙推出聊天机器人Bard,5月又发布了大语言模型PaLM 2。

谷歌急迫地上马新项目,对Bard迭代心急如焚,最终的结果就是压力转移到最底层的数据标注员身上。

有很多个谷歌的合同工说,自从谷歌开始加入AI军备竞赛,他们的工作几何增长,内容也更复杂。这群标注员要处理药物剂量说明和法律文书等等专业文件,时间只给了3分钟,而他们根本没有经过相关知识的培训。

这种有时间限制,又要求精准的工作让人一直神经紧绷。标注员们的劳动伴随着恐惧,当然会影响工作质量。在一份员工提交的报告中,他们写道:如果一直要求他们这样求快,Bard会变成一个危险和充斥着错误信息的产品。

然而,在白热化的竞争中,谷歌无暇顾及数据标注员的感受。他们受雇于AI数据训练公司澳鹏(Appen)和埃森哲,和谷歌切身利益没有太大关系。

AI是个彻头彻尾的全球化产业。澳鹏的正式员工只有1600人左右,而外包员工数量高达上百万。这家位于澳大利亚悉尼郊区的公司伴随AI行业崛起成长为明星,一年收入6亿澳元。

可以预想,这一次生成式AI的狂欢会催生对标注员更庞大的需求,澳鹏也会从中分得更多利润。

只是,无论ChatGPT迭代多少代,硅谷大厂市值上涨多少倍,最底层的标注员不会得到太多好处。
我们可能摆脱标注么?

标注员的工作是纯粹的人类劳动。他们要比较两则新闻,评估哪条新闻相关性更高。他们也要判断AI给出的答案中有没有“一本正经胡说八道”的事实性错误。标注员们都有本守则,会从6个角度指导他们做出判断。

以目前AI的技术水平,根本无法离开真人训练。AI标注其实就是不断地动用人类主观性做出常识判断。

AI行业其实是一个劳动密集型行业,即便在大模型时代也是如此。

国家之间发展不平等的现状客观存在,所有劳动密集型行业要获得超额利润,必须全球分工。

对当地人来说,这种全球分工其实不是坏事。OpenAI合作的外包公司Sama总部虽然位于旧金山,但它的员工来自乌干达、肯尼亚和外包大国印度。在肯尼亚,这些标注员工的工资为每个月2.1万肯尼亚先令(约合1158元),算当地普通工人的平均水平,而且坐办公室,不用做体力活。

SAMA公司员工,图片来自官网

澳鹏这样的公司会很精明地将工资定在最低工资基准以上,而且还会给一个月70美元的奖金。这对当地人来说是笔不错的收入。

在加尔各答郊区,穆斯林女性因为全球分工获得了工作机会。她们给亚马逊、微软、eBay等等训练AR算法和自动驾驶数据。

一些中国年轻人则很欢迎这样的工作。在贵阳市百鸟河数字小镇,数字标准员中会有刚从高职学校毕业的学生,一个月挣1500元。比起送外卖、当服务员,他们其实更喜欢坐在办公室训练AI。

作者项飚曾经很客观地评估过这种共生关系:“由于IT行业的劳动密集型的特征,如果没有一个巨大的、额外的劳动力储备,该行业或许根本无法快速发展,由此无法向当地工人提供现有的就业机会。”AI需要发展中国家的廉价标注员,而标注员们也需要这份门槛不高的工作维生。他们从来不是受害者,也不是需要人同情的弱者,而是一群努力、勤奋工作的普通人。

当然,我们不能因此将低工资、高压力的工作合理化。国家和国家之间的不平衡也不是压榨标注工人的借口。即便只是自私地为了AI学习数据的质量,这些吝啬的科技公司也应该给标注工人更好的待遇和工作环境。

AI催生了明星公司、百万富翁,它还将改变各行各业,产生难以想象的收益。只是,这些宏大的愿景和坐在乌干达办公室埋头苦干的标注员无关。当某一天,AI进化到不需要标注员时,这群从来不被承认的功臣又会被毫不留情地扫去角落。

“我告诉我的朋友和家人,谷歌、亚马逊、苹果等公司的工程师就像人工智能婴儿的亲生父母和私人教师,而我就是清扫他们的育婴房并给他们洗衣服的女佣之一。”一位标注工这样形容自己的工作。

或许,即便我们不可能短期内改变经济、知识结构的区域不平等,起码可以看见他们,衷心认可他们的价值,承认他们在AI时代的不可或缺。

36氪旗下公AI众号

👇🏻 真诚推荐你关注 👇🏻

来个“分享、点赞、在看”👇

数据标注员还在搬砖

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/158970
 
309 次点击