社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

机器学习:亟须纠正的4大类“偏差”

OFweek人工智能 • 6 年前 • 608 次点击  

点击上方蓝色字体,关注我们




偏见是指个人对他人或其他群体所持有的缺乏充分事实依据的认识和态度,而机器学习中的偏差则是由缺乏足够的特征和用于训练模型的相关数据集不全面引起的。机器学习算法在训练中严格按照其数学构造和数据执行任务,准确完成人类所输入的内容,因此,机器学习模型的偏差通常是由设计和收集相关数据的人的“偏见”造成的。


数据科学家在构建算法并对机器学习进行训练时,源自其本身某种程度的偏见会不可避免地蔓延到AI模型中,比较幸运的是,机器学习的偏差能够被检测和规避。不过,相关的研究人员仍需保持警惕。本文总结了需要了解和防范的4种不同类型的机器学习偏差以供参考。


1. 样本偏差


样本偏差是训练数据的问题。当用于训练模型的数据不能准确地表现模型将运行的环境时,就会产生样本偏差。没有任何一种算法可以与整个宇宙环境的数据交互,并在这个宇宙环境中被训练,所以,选择一个足够大且具备代表性的宇宙子集来减轻样本的偏差成为一门科学。尽管这门科学容易理解,但并非所有的数据科学家都接受过抽样技术的训练。


举一个自动驾驶汽车的例子。当训练一个在白天和夜晚都能使汽车自动驾驶的算法时,如果只选取了白天的数据进行训练,这就等于在模型中引入了样本偏差,用白天和夜晚的数据训练算法才可以消除样本偏差的来源。


2. 偏见偏差


偏见偏差是由受文化和刻板印象影响的数据所引发的结果。可以想象一下,假设有一个计算机视觉算法正在接受训练来理解工作中的人们,而该算法暴露于数以千计的训练数据图,其中许多图像显示的是正在写代码的男性和在厨房干活的女性,那么,该算法很可能会将编码员等同于男性,将家务员等同于女性。这就是偏见偏差,因为很显然女性也能够写代码,而男人也可以做饭。


这里的问题是,被选取的训练数据有意识地或无意识地反映了社会的刻板印象。要避免这样的情况出现,可以忽略性别和职业之间的统计关系,并使算法接触均衡分布的示例。这显然需要对刻板印象和偏见足够敏感,而这则取决于人类对模型设定的表达行为的预期,仅靠数学无法克服这类偏差。负责标记和注释训练数据的工作人员必须接受相关的训练,以避免他们将自己对社会的偏见或刻板印象引入到训练数据中。


3. 计量偏差


如果用于观察或测量的设备存在问题,这会使系统价值失真,这种偏差趋向于使数据朝某个特定的方向偏离。例如,用带有彩色滤光片的相机拍摄的每幅训练数据图像都会出现颜色完全失真的情况,如此,用于训练算法的图像数据实际上也没有系统地表现出算法将运行的环境。


这种偏差无法通过简单地扩大数据收集来避免,有效的途径是,选取多个测量装置并让接受过训练的人员来比较这些装置的输出内容。


4. 算法偏差


最后一种类型的偏差与数据无关,属于算法的数学性质。一方面,具备高方差的模型可以很容易拟合到训练数据中并能接纳复杂性,然而,这种模型对杂讯(又称噪音noise)十分敏感;另一方面,具备高偏差的模型则更加刚硬,对数据和噪声的变化不那么敏感,但容易丢失复杂性。因此,数据科学家需要在这两个属性之间达到适当的平衡。



数据科学家能通过了解这四种类型的AI偏差构建出更好模型和选取更好的训练数据。AI算法是由人类构建的,训练数据也是由人类收集、筛选、标记和注释的,因此,数据科学家需要敏锐地识别出这些偏差,并使用一种贯彻和迭代的方式来不断测试模型,并吸纳训练有素的研究员协助,最终规避这些机器学习的偏差。

推荐阅读

1.限时下载 | 800G人工智能全套学习资料,超级干货! Hot~

2.限时下载 | Python+Matlab+机器学习+深度神经网络,仅限500人! Hot~

3.限时下载 | 100G Python从入门到精通全套资料!(全网最全) Hot~

4.限时下载 | Matlab从入门到进阶学习资料大放送,全是干货! Hot~

5.限时下载 | 140G编程资料免费领!(python、JAVA、机器人编程...)

6.限时下载 | 学习Python、机器人编程必读的10本书籍!

7.限时下载 | 265G python全套视频教程,从入门进阶到面试技巧! Hot~

8.限时下载 | 40G Matlab从入门到精通全套学习资料大全!

9.限时下载 | 一本豆瓣9.4分的好书《流畅的Python》!

10.限时下载 | 一本数据分析入门必读《利用Python进行数据分析》

11.限时下载 | 110G C语言和C++编程全套自学教程,仅限500人!

12.限时下载 | 20G Python量化交易从入门到精通全套资料!

OFweek 2018(第三届)中国

高科技产业大会

(深圳站)


OFweek 2018(第三届)中国高科技产业大会将于11月12日-13日在深圳举办,今年主论坛的核心议题将聚焦人工智能、医疗科技、新能源,并延伸至智能产业前瞻性话题,带来机器人、智慧城市、物联网、智慧照明、智能光伏、氢能、锂电、新能源汽车等多个领域最具尖端性、科技感的议题,带来数十个专场技术峰会


小编温馨提示:扫码报名即可进入2018中国高科技产业大会福利群,抢1500元福利门票

长按识别二维码

免费领取2018中国高科技产业大会门票

戳下面的原文阅读,也能抢票


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/y2BGOtMXpt
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/25795
 
608 次点击