社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

深度学习中存在的偏见和歧视问题,该如何破解?

OFweek人工智能 • 6 年前 • 564 次点击  

点击上方蓝色字体,关注我们




人工智能技术落地到各个行业领域,深度学习作为人工智能技术的核心也逐渐渗透至各个方面。计算机通过模拟或实现人类的学习行为,通过大量数据和算法获取新的知识或技能,最后重新组织已有的知识结构使之不断改善自身的性能。


然而在人工智能上,一直存在“黑匣子”问题,深度网络具有高预测能力但可解释性不足的特点。在用大量数据“教导”机器学习的同时,研究者发现机器学习也会产生不可预测性的“偏见”,当一些暗含“偏见”的数据被算法永久性地编码进人工智能程序中,就可能导致未知的错误和偏差,这可能会在最终结果和决策中产生影响甚至重大的错误,从而影响未来人类与人工智能的关系。



前段时间,谷歌废除了人工智能招聘项目,因为该人工智能系统在经过10年的简历培训后,由于男性主导的工作环境,产生了对“女性”的偏见,据报道,它对包含“妇女”一词或某些全女子学院名称的简历都进行了处罚。


对于这种机器学习产生的“偏见”问题,类似于“俄罗斯坦克问题”。20世纪80年代,在机器学习发展的早期,美国军方试图训练一台电脑来区分俄罗斯和美国坦克的照片。其分类准确度非常高,但结果中俄罗斯坦克的所有照片都模糊不清,而美国坦克是高清晰度的。原来该算法最后不是在识别坦克,而是学习了如何区分模糊和清晰的照片。


而造成这种偏见的原因主要有一下几点:


一、用于机器学习算法的数据不足。算法在初始提供的数据中获得模式,然后在新的数据中识别类似的模式,然而有时算法并不会按照人们初始意愿那样工作。


二、算法本身很糟糕。机器学习是软件开发人员利用大量与任务相关的数据训练 AI 算法的过程,如果本身算法就存在漏洞,深度学习后的结果则会更加差强人意。


要想消除机器学习中潜在的“偏见歧视”问题,可尝试以下几种方法:


减少原始数据的“偏见性”


2018年5月25日,“通用数据保护条例”(GDPR)在整个欧盟范围内生效,要求对组织如何处理个人数据进行彻底改变。若违反GDPR条例的限制,相关组织必须支付高达2000万欧元或其全球收入4%的罚款(以较高者为准),对威慑大多数违规行为具有很重要的意义。



但事实上,虽然有GDPR等法规对数据的使用加以限制,还是避免不了一些研究使用存在偏见的数据集。由于机器学习系统的行为由它学到的数据所驱动,所以它的工作方式与人们编写的标准计算机程序有很大不同。如果供算法训练的数据不能公平地覆盖所研究对象,系统便会出现偏差,甚至会放大原始数据中的偏见。


而这个问题却不在数据本身的数学结构上,而在于深度学习系统的设计者和操作者上。要解决数据的偏见问题,就需要数据收集存储、使用的公平性和全面性。


打开算法“黑匣子”


一直以来,许多公司为了自身的专利保护和商业机密,会严格保密自家的人工智能算法,从未形成了决策无法解释的“黑匣子”问题。好在目前人工智能领域已意识到这个问题,正积极采取措施加快代码的开源,制定透明度标准,提高算法的可靠性,除此之外,还需提倡“程序员必须对算法得出的结论做出解释,否则就不能投入使用”原则。对此,人们也做出了相应举动,例如,美国国防部高级研究计划局资助了一项名为XAI(可解释的人工智能)的计划,旨在打开人工智能的“黑匣子”,以保证用户更好地控制人工智能程序。


让机器自己寻找错误


人工智能系统在学习时会犯错。事实上这是肯定的,所以称之为“学习”。电脑只会从你给出的数据中学习。但有时候,并不能消除数据偏见的来源,就像不能消除人类中的偏见来源,所以首先承认问题,然后让机器自己去发现错误。


华盛顿大学的研究人员在2016年构建了一种称为LIME的解释技术,并在由Google构建的图像分类神经网络Inception Network上进行了测试。


LIME在做出图像分类决策时,不会考虑触发神经网络中的哪个神经元,而是在图像本身中搜索解释。它会将原始图像的不同部分变黑,并通过Inception将产生的“扰动”图像反馈回来,以检查哪些扰动导致结果偏离算法最远。通过解释机器学习模式中的错误,可以改进技术来消除人的偏见。


深度学习的“偏见歧视”问题正潜移默化地影响着算法结果,研究者们需要时刻关注,反复检测算法结果与预期的偏差,任何一点差距都有可能通过蝴蝶效应,最后发展成一个重要的错误。在人工智能崛起的时代,当人们越来越关注人工智能与人类社会的关系时,这将是一个始终备受关注的敏感点。

推荐阅读

1.限时下载 | 800G人工智能全套学习资料,超级干货! Hot~

2.限时下载 | Python+Matlab+机器学习+深度神经网络,仅限500人! Hot~

3.限时下载 | 100G Python从入门到精通全套资料!(全网最全) Hot~

4.限时下载 | Matlab从入门到进阶学习资料大放送,全是干货! Hot~

5.限时下载 | 140G编程资料免费领!(python、JAVA、机器人编程...)

6.限时下载 | 学习Python、机器人编程必读的10本书籍!

7.限时下载 | 265G python全套视频教程,从入门进阶到面试技巧! Hot~

8.限时下载 | 40G Matlab从入门到精通全套学习资料大全!

9.限时下载 | 一本豆瓣9.4分的好书《流畅的Python》!

10.限时下载 | 一本数据分析入门必读《利用Python进行数据分析》

11.限时下载 | 110G C语言和C++编程全套自学教程,仅限500人!

12.限时下载 | 20G Python量化交易从入门到精通全套资料!

OFweek 2018(第三届)中国

人工智能产业大会

(深圳站)


OFweek 2018(第三届)中国人工智能产业大会将于2018年11月12日在深圳举办!本次大会将用全新视角透析行业动态,解读在人工智能领域本年度海内外最值得关注的学术与研发进展,作为AI人,这场AI综合秀不容错过!


小编温馨提示:扫码报名即可进入2018中国人工智能产业大会福利群,抢1500元福利门票

推荐阅读人工智能下一个五年在哪?11月12日(第三届)中国人工智能大会给你答案!

长按识别二维码

人工智能产业大会福利群抢门票

戳下面的原文阅读,也能抢票


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/cqVh3Q6bYB
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/25307
 
564 次点击