机器学习，是新闻业的未来吗？

来源：storybench.org

作者：Floris Wu

编译：负暄

编辑：罗布君

图片：网络

编者按

新闻业运用人工智能已经不是个新话题。

据报道，美国加州2014年3月18日当地时间早晨发生4.4级地震，《洛杉矶时报》是第一家报告这次地震的媒体。据悉，《洛杉矶时报》能拔得这个头筹则是靠了“机器人写手”。

我国媒体也十分重视该项技术。新华社的“快笔小新”、今日头条的“张小明”、腾讯的“Dreamwriter”等是“机器人记者”，更是媒体积极运用信息技术的成果。

尼曼实验室（nieman lab）曾报道新华社在人工智能方面的突破

然而，问题也随之而来。随着人工智能的发展，机器学习、深度学习等子概念为人熟知。AI“黑箱”中的算法歧视、新闻业应用机器学习的伦理问题，都亟需思考和解决。

传媒研究（xjbcmyj）选择相关文章进行了编译。

《波士顿环球报》的视觉记者凯文·沃尔（Kevin Wall）刚刚开始在他的报道中使用机器学习。他表示:“我们需要大量的数据来进行机器学习和深度学习，这有一定难度，因为你需要一组人来获取数据。”

不仅是沃尔，新闻行业对这些数据科学工具仍在探索阶段。目前，只有为数不多的几个融合项目，比如BuzzFeed的“搜索侦察机”、《洛杉矶时报》（L.A. Times）对犯罪时间错误归类的分析，以及《纽约时报》（The New York Times）对美国国会议员的图像识别。

“现在，媒体行业意识到机器学习可以使他们获益，但也代表着剧烈的转变——毕竟这个行业在过去的几百年中都非常稳定。” 道琼斯（Dow Jones）人工智能技术项目经理亚历克斯·西格曼（Alex Siegman）说。

“这是一件非常新鲜的事情，许多新闻编辑部正在探索这对他们意味着什么，以及他们如何从中受益。”

什么是机器学习?

简单地说，机器学习就是用一组“教学数据”来训练计算机程序模型，从而比人类更快、更有效地识别、洞察和预测事物。

举个例子，2013年，kaggle网站举办了“猫狗大战”（Dogs vs cats）比赛，给参赛者提供25，000张狗和猫图像的数据集，要求他们利用这些文件训练自己的算法模型，以正确识别图片中的动物是猫还是狗。

Kaggle“猫狗大战”数据集

正如西格曼所说，机器学习是“在大量数据中发现规律，并根据历史数据进行预测。”在新闻工作中，机器学习可以应用于两个方面：调查报道的一部分，或者是让记者工作更轻松的日常工具。

用于调查性报道的机器学习

BuzzFeed科学部的记者彼得•奥尔德乌斯（Peter Aldhous）表示:“实际上，除非被布置需要把大量事物分类的工作，记者很少需要用到机器学习。”

奥尔德乌斯是“搜索侦察机”项目的工作人员，在这个项目中，他使用了机器学习——特别是“随机森林”（random forest）算法，从大量的飞机飞行数据中识别出可能是“隐藏身份的侦察机”。该项目获得了2018年数据新闻创新奖。

BuzzFeed“搜索侦察机”项目

他说，飞机项目是一个罕见的例子，机器学习需要有足够大的数据集来训练模型，而他恰好有很多关于飞机的有效数据。

奥尔德乌斯成功地获取了100多架政府飞机4个月的飞行数据。在此基础上，他建立了一个模型，可以根据“飞机的转弯速率、飞行速度、飞行高度、每条飞行路径周围的矩形区域以及飞行持续时间”来标记可能是侦察机的飞机。

但奥尔德乌斯告诫说：“数据记者可能会对这个新工具‘过于兴奋’。”《纽约时报》交互新闻部的软件工程师瑞秋·肖雷（Rachel Shorey）在2018年3月美国计算机辅助研究所报告（National Institute for Computer-Assisted Reporting）会议上总结了这种情况：“有时候利用关键字或统计抽样技术就可以在短时间内做好一项工作。”

瑞秋·肖雷2018年美国计算机辅助研究所报告会议演讲幻灯片

“我们需要使用正确的工具来完成工作，”奥尔德乌斯说，“（我们做的很多事情）不需要机器学习，而是需要好的数据报告。”

尽管新闻编辑部使用机器学习的需求相对较少，但肖雷指出，当记者在报道中使用这种技术的过程“比预想的要随意得多”。首先，记者用他们喜欢的编程语言查找一个好的程序库；其次，他们阅读文档；第三，需要确认该方法是正确且有效率的，能让他们理解输入和输出；第四，花费数天乃至数周的时间来清洗数据；最后，写下大约10行代码来执行机器学习的过程。

机器学习作为日常工具

西格曼表示:“记者要做的事情有很多。如果能利用技术或机器学习实现自动化工作或者半自动化工作，对记者来说有很多好处。”

他说，机器学习可以帮助记者完成日常任务，比如寻找新闻、捕捉图片和影像，或者在社交媒体上编辑和发布他们的作品。机器学习可以做一些小事，比如自动转录，使用图像识别技术来识别照片中的人，以及给视频加上字幕；或者完成任务量更大的工作，比如从社交媒体的海量内容中寻找特定信息。

西格曼认为机器学习或人工智能只不过是种工具，10年或20年后，人们对机器学习的看法将与我们今天对微软Excel的看法一样。“它（只是）我们用来执行某些职能的工具。”