Py学习  »  机器学习算法

欺诈、色情、黑客攻击……机器学习是如何进行内容审查的?

读芯术 • 4 年前 • 446 次点击  
阅读 9

欺诈、色情、黑客攻击……机器学习是如何进行内容审查的?

全文共2622字,预计学习时长6分钟

俗话说:牛X网友千千万,微博卖片占一半。

卖片广告一度辉煌,总能在各大热门微博抢占评论第一的宝座,成为网络上最风骚的牛皮癣。

无论是夜深人静时,还是光天化日下,他们用英文字母+数字+表情符+欲说还休的mm图,向全网用户传递“爱”的信息。

坊间有句江湖术语:没有被卖片的盯上过,怎么好意思说自己玩过微博。


原以为微博看片指日可待,没想到这几年卖片大军转战地下,讲究精准营销。只有运气好的时候,才能看见几个清新脱俗的小广告。

不过世风依旧日下,现在有的饭圈评论区比小毛片更辣眼睛。只混科技圈的小芯实在不能理解,两家粉丝掐架为何要互相问候祖宗,问候生殖器。网友扒黑料的水平和速度比Python爬数据还稳准狠。


虚拟网络已经成了网友的“泄粪场”,为利益各自站队,言辞无下限,总能拓宽人的知识面。

此外,为博流量的假新闻,也在网络平台恣意生长。明星八卦、造谣诈骗甚至拿最近的“利马奇”做文章,有意制造恐慌。


什么内容需要审核?

各大平台在流量红利中扮演着矛盾的角色,事件发酵引发流量效应有钱赚,而不当信息滋生网络毒瘤会被点名。随着社交空间相关的法律和社会环境越成熟,企业监管终于成了重中之重。

当然,企业不可能对数十亿的平台用户及平台发布的消息和照片逐一进行人工检查。他们通常利用机器学习系统自动解析上传到网站的内容,然后将被标记为违规的内容交给人工审核,人工团队再针内容判断是否将其上传至网站。

平台进行内容处理通常采用以下两种方法——在用户提交可能不当内容之前先行发出警告,或者事后删除内容或处罚用户。

一般平台的审核系统通常针对以下内容:

欺凌内容

第一类需要审核的内容涉及在线骚扰或欺凌。这包括各种行为,例如网络攻击、网络欺凌、仇恨言论和人肉。虽然其中一些行为难以界定,但平台仍在努力自动检测这些内容。

例如:Facebook和Instagram等国外社交巨头,在经历几起因网络欺凌导致用户自残和自杀的事件后,平台整改,增加了举报选项并加强了进一步监管。综合采用自然语言处理,图像处理和社交网络分析方法,利用机器自动检测欺凌内容,防止惨剧发生。

https://www.metroparent.com/daily/parenting/parenting-issues-tips/michigan-anti-cyberbullying-law-what-it-means-for-kids-and-families/

虚假/误导内容

社交网络是虚假信息传播的加速器。这类内容一般以新闻文章的形式出现,通常被称为“假新闻”。

假新闻检测难度就上了一个level,相较色情信息,假新闻的关键词不够典型。需要结合人类的日常经验和真实信息进行判断。

当前通常的处理手段是,结合大的通用/常识知识库、自然语言处理、以及通过社交网络分析和内容的风格特征,综合分析各类基于网络信誉的因素。

https://www.independent.ie/world-news/and-finally/7-reasons-why-fake-news-goes-viral-according-to-experts-36283450.html

裸露/明确的性内容

裸露和色情内容几乎是每个平台最头痛的地方。这类有色信息通常以图片的形式出现。因此通过图像分类处理就可以轻松检测。

自从微博将这项技术提上议程,原本春光无限的微博就变成“灰蒙蒙一片真干净”。


在国外,民风还是相当开放。不同的平台的政策不同,例如,Instagram完全禁止这类内容出现,而Reddit则允许这类内容的上传。于是小芯在逛Reddit这个美版的天涯+贴吧时,总会有福(刺)利(眼)的内容引人注目。

诈骗/网络钓鱼/黑客攻击

最后一类内容涉及诈骗、网络钓鱼或非法入侵平台用户的计算机系统。此类内容常常试图让用户离开当前平台转向其他网站。这个外部网站通常会诱导用户上传个人信息或汇款给陌生人。

外部网站通过模仿原始网站上的URL(常通过 homoglyph攻击),或向用户承诺更优惠的购买价格来达到这一目的。通常通过自然语言处理、已知网络钓鱼链接的集合,以及社交网络分析和帐户等网络信誉因素来检测该类内容。

https://www.pcmag.com/article/364947/how-to-avoid-phishing-scams

审核如何进行?

自动化内容审核通常分为两个阶段。

自动标记

首先,从用户入手,内容当然是由用户创建和提交的。

如果已知发布内容的用户是规则破坏者,或者内容非常明显地违反基本审核规则,那么用户可能被暗中禁言,发布的内容也可能会被自动隐藏,而发布者本人对此一无所知。

或者,分析这类内容的特征,将结果输入到内容审核机器学习模型中。部分与内容本身无关的特征(例如用户特征)可能已经经过设定好的批处理系统处理,而如果这些特征(例如与文本或图像相关的特征)直接来源于提交的内容,则可以在运行中处理。此外,如果内容在提交后由其他用户手动标记,还可以对其进行再处理。

基于这些特征,机器学习模型可以输出一个概率分数。如果此分数高于某个阈值,则怀疑该内容违反了平台规则,将其标记后提交人工二次审核。企业需要尽可能降低开支,因此通常会以严格的数学方法来确定此阈值,以便优化审核标准,平衡违规成本与人工标记成本。

人工审核

受到标记的内容会发送给人工审核员以对其进行二次人工检查。这些人工审核员通常会接受简单的培训,快速识别违规内容。

通常每条内容都将由5名以下的人员负责,以消除因标记错误或理解差异造成的分歧。(还是相当公平公正的)。

被打上最终标签后,违规内容就会得到处理。比如删除内容,或者处罚及删除用户账号。

你以为这就完了吗?用户的不良记录将会永久保存。不良内容将与对应的标签一起存储,形成形形色色的数据集,用以内容标记机器学习模型的迭代。整个过程不会浪费任何数据,并且模型能够不断地重新训练,以适应用户提交内容的变化模式。

于是,互联网界的魑魅魍魉,迷惑行为大赏都将被载入“数据史册“。

值得注意的是,由于这群内容审核员每天查看的内容都是奇葩中的极品,所以他们的工作状况十分令人担忧。

比如:针对色情内容的审核人员有一个微妙的称呼——“鉴黄师”,可能和黄药师差不多水准。他们接受媒体采访时曾直言:每天阅片无数,看到人恶心想吐……

图源:暴走大视频

摸着良心:这是真辛苦。

算法的公平性也可以量化?试试这三个指标吧

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/37619
 
446 次点击