Py学习  »  机器学习算法

【2021新书】人在环路机器学习,426页pdf阐述主动学习与标注的以人为中心人工智能

专知 • 2 年前 • 192 次点击  



当今世界上部署的大多数机器学习系统都是从人类反馈中学习的。然而,大多数机器学习课程几乎只关注算法,而不是系统的人机交互部分。这可能会给在现实世界机器学习领域工作的数据科学家留下一个巨大的知识鸿沟,在现实世界机器学习领域,数据科学家花在数据管理上的时间多于构建算法的时间。Human-in-the-Loop Machine Learning是优化整个机器学习过程的实用指南,包括注释、主动学习、迁移学习技术,以及使用机器学习来优化过程的每一步。

https://www.manning.com/books/human-in-the-loop-machine-learning

作者:

Robert (Munro) Monarch是一名数据科学家和工程师,曾为苹果、亚马逊、谷歌和IBM等公司开发过机器学习数据。他拥有斯坦福大学的博士学位。

本书组织

本书共分为四个部分:绪论;对主动学习的深入研究;对注释的深入研究;最后一部分,将所有内容与人机界面的设计策略以及三个实现示例结合在一起。



本书的第一部分介绍了创建培训和评估数据的构建模块:注释、主动学习和人机交互概念,帮助人类和机器最有效地结合他们的智能。在第2章结束时,您将构建一个用于标记新闻标题的人在循环机器学习应用程序,完成从注释新数据到重新训练模型,然后使用新模型来帮助决定下一个应该注释哪些数据的循环。


第2部分介绍了主动学习——一组用于对最重要的数据进行抽样以供人类审查的技术。第3章涵盖了理解模型不确定性的最广泛使用的技术,第4章处理了一个复杂的问题,即识别您的模型在哪些地方可能是可靠的,但由于采样不足或非代表性数据而出错。第5章介绍了将不同的策略组合成一个全面的主动学习系统的方法,第6章介绍了主动学习技术如何应用于不同类型的机器学习任务。


第3部分介绍注释—为训练和评估数据获取准确和有代表性的标签时经常被低估的问题。第7章介绍了如何找到和管理正确的人员来注释数据。第八章介绍了标注质量控制的基础知识,介绍了最常用的计算精度和一致性的方法。第9章介绍了注释质量控制的高级策略,包括对主观任务的注释,以及使用基于规则的系统、基于搜索的系统、迁移学习、半监督学习、自监督学习和合成数据创建的各种半自动注释方法。第10章介绍了如何针对不同类型的机器学习任务管理注释。


第4部分完成了“循环”,在第11章中深入探讨了有效注释的接口,在第12章中介绍了三个人在循环中的机器学习应用程序示例。在整本书中,我们不断地回到不同类型的机器学习任务的例子:图像和文档级标记、连续数据、目标检测、语义分割、序列标记、语言生成和信息检索。内页包含了快速参考资料,告诉你在哪里可以找到这些任务。


代码地址:


https://github.com/rmunro/pytorch_active_learning








专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“H426” 就可以获取【2021新书】人在环路机器学习,426页pdf阐述主动学习与标注的以人为中心人工智能》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/121874
 
192 次点击