Python中国社区  »  机器学习算法

机器学习,是新闻业的未来吗?

新京报传媒研究 • 1 周前 • 31 次点击  


来源:storybench.org

作者:Floris Wu

编译:负暄

编辑:罗布君

图片:网络



编者按

新闻业运用人工智能已经不是个新话题。

 

据报道,美国加州2014年3月18日当地时间早晨发生4.4级地震,《洛杉矶时报》是第一家报告这次地震的媒体。据悉,《洛杉矶时报》能拔得这个头筹则是靠了“机器人写手”。

 

我国媒体也十分重视该项技术。新华社的“快笔小新”、今日头条的“张小明”、腾讯的“Dreamwriter”等是“机器人记者”,更是媒体积极运用信息技术的成果。


尼曼实验室(nieman lab)曾报道新华社在人工智能方面的突破

 

然而,问题也随之而来。随着人工智能的发展,机器学习、深度学习等子概念为人熟知。AI“黑箱”中的算法歧视、新闻业应用机器学习的伦理问题,都亟需思考和解决。

 

传媒研究(xjbcmyj)选择相关文章进行了编译。



《波士顿环球报》的视觉记者凯文·沃尔(Kevin Wall)刚刚开始在他的报道中使用机器学习。他表示:“我们需要大量的数据来进行机器学习和深度学习,这有一定难度,因为你需要一组人来获取数据。”

 

不仅是沃尔,新闻行业对这些数据科学工具仍在探索阶段。目前,只有为数不多的几个融合项目,比如BuzzFeed的“搜索侦察机”、《洛杉矶时报》(L.A. Times)对犯罪时间错误归类的分析,以及《纽约时报》(The New York Times)对美国国会议员的图像识别。

 

“现在,媒体行业意识到机器学习可以使他们获益,但也代表着剧烈的转变——毕竟这个行业在过去的几百年中都非常稳定。” 道琼斯(Dow Jones)人工智能技术项目经理亚历克斯·西格曼(Alex Siegman)说。

 

“这是一件非常新鲜的事情,许多新闻编辑部正在探索这对他们意味着什么,以及他们如何从中受益。”


什么是机器学习?

简单地说,机器学习就是用一组“教学数据”来训练计算机程序模型,从而比人类更快、更有效地识别、洞察和预测事物。

 

举个例子,2013年,kaggle网站举办了“猫狗大战”(Dogs vs cats)比赛,给参赛者提供25,000张狗和猫图像的数据集,要求他们利用这些文件训练自己的算法模型,以正确识别图片中的动物是猫还是狗。

 

Kaggle“猫狗大战”数据集

  

正如西格曼所说,机器学习是“在大量数据中发现规律,并根据历史数据进行预测。”在新闻工作中,机器学习可以应用于两个方面:调查报道的一部分,或者是让记者工作更轻松的日常工具。


用于调查性报道的机器学习


BuzzFeed科学部的记者彼得•奥尔德乌斯(Peter Aldhous)表示:“实际上,除非被布置需要把大量事物分类的工作,记者很少需要用到机器学习。”

 

奥尔德乌斯是“搜索侦察机”项目的工作人员,在这个项目中,他使用了机器学习——特别是“随机森林”(random forest)算法,从大量的飞机飞行数据中识别出可能是“隐藏身份的侦察机”。该项目获得了2018年数据新闻创新奖。

 

BuzzFeed“搜索侦察机”项目

  

他说,飞机项目是一个罕见的例子,机器学习需要有足够大的数据集来训练模型,而他恰好有很多关于飞机的有效数据。

 

奥尔德乌斯成功地获取了100多架政府飞机4个月的飞行数据。在此基础上,他建立了一个模型,可以根据“飞机的转弯速率、飞行速度、飞行高度、每条飞行路径周围的矩形区域以及飞行持续时间”来标记可能是侦察机的飞机。

 

但奥尔德乌斯告诫说:“数据记者可能会对这个新工具‘过于兴奋’。”《纽约时报》交互新闻部的软件工程师瑞秋·肖雷(Rachel Shorey)在2018年3月美国计算机辅助研究所报告(National Institute for Computer-Assisted Reporting)会议上总结了这种情况:“有时候利用关键字或统计抽样技术就可以在短时间内做好一项工作。”

 

瑞秋·肖雷2018年美国计算机辅助研究所报告会议演讲幻灯片

 

“我们需要使用正确的工具来完成工作,”奥尔德乌斯说,“(我们做的很多事情)不需要机器学习,而是需要好的数据报告。”

 

尽管新闻编辑部使用机器学习的需求相对较少,但肖雷指出,当记者在报道中使用这种技术的过程“比预想的要随意得多”。首先,记者用他们喜欢的编程语言查找一个好的程序库;其次,他们阅读文档;第三,需要确认该方法是正确且有效率的,能让他们理解输入和输出;第四,花费数天乃至数周的时间来清洗数据;最后,写下大约10行代码来执行机器学习的过程。


机器学习作为日常工具


西格曼表示:“记者要做的事情有很多。如果能利用技术或机器学习实现自动化工作或者半自动化工作,对记者来说有很多好处。”

 

他说,机器学习可以帮助记者完成日常任务,比如寻找新闻、捕捉图片和影像,或者在社交媒体上编辑和发布他们的作品。机器学习可以做一些小事,比如自动转录,使用图像识别技术来识别照片中的人,以及给视频加上字幕;或者完成任务量更大的工作,比如从社交媒体的海量内容中寻找特定信息。

 

西格曼认为机器学习或人工智能只不过是种工具,10年或20年后,人们对机器学习的看法将与我们今天对微软Excel的看法一样。“它(只是)我们用来执行某些职能的工具。”



新闻机器学习的伦理


奥尔德乌斯表示:“我不喜欢发生在黑箱中的机器学习应用在新闻业上。”他指的是一些算法在设计和使用方面缺乏透明度。

 

他说,新闻工作的透明度至关重要,记者应该能够解释他们所做的事情。

 

算法的可靠性也至关重要。奥尔德乌斯说:“记者需要对企业和政府如何使用机器学习算法进行监督报道。”

 

他认为,对机构关于算法问题的监督报道甚至比记者使用这些算法本身更重要。他说,“任何算法决策都有可能存在偏见。”

 

美国亚利桑那大学(University of Arizona)的计算机科学家卡洛斯•谢德格(Carlos Scheidegger)表示,当算法在训练中接触社会偏见时,就有可能使得最终决策出现偏见。他说:“如果使用的分类器有问题,你几乎无法确认结果。” 


西格曼和奥尔德乌斯都提到了一个例子,亚马逊使用一套对女性有偏见的算法作为他们的招聘系统。该算法用主要是男性的应聘者提交的数据进行了为期10年的培训。然后它开始挑剔那些包含“女性”一词的简历。

 

西格曼说:“偏见通过算法沉淀,进入现实世界。”

 

西格曼认为隐私问题也令人担忧。“要使用任何机器学习,你都需要大量的数据。”他说,“关于如何从用户那里收集数据,可能会存在隐私方面的问题。”


新闻业机器学习的未来


奥尔德乌斯认为机器学习是有前途的,但更多的是在出版方面——比如如何分发、分享和展示内容来吸引更多的读者。

 

他说:“但随着时间的推移,我们会更清楚地知道,什么工作它是适合的工具,什么时候它会被过度使用,或者没有必要使用。”

 

西格曼表示同意:“不要想我们可以在哪里使用人工智能。想想你每天都要面对哪些问题,然后评估人工智能是否可以解决这些问题。”




你能为我摘一颗星星吗?



近期好文荐读:


   一本杂志的“绝地求生“:读者的热爱能为纸媒续命吗?


   2019,摄影师镜头里的猪年


   我家老相册,有仿真塑料花、年轻的外公,和齐齐整整的一家人


合作邮箱:cmyj2015@126.com





今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/emIe6cuQV3
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/28710
 
31 次点击  
分享到微博