Py学习  »  机器学习算法

【人工智能】机器学习和人工智能的未来、人工智能的现状及今后发展趋势展望

产业智能官 • 4 年前 • 480 次点击  

出处:http://www.dataversity.net/future-machine-learning-artificial-intelligence/

作者:Paramita Ghosh 

译者:韩吉昌

人工智能(AI)和相关技术出现在许多行业、大量的系统软件中,在2020年之前人工智能将成为我们日常生活的一部分,Gartner还预测到在2020年,人工智能将成为至少30%的首席信息官的五大重点投资之一。


全球的软件供应商都在追逐这场新的淘金热。不幸的是,尽管新收益的前景驱使更多的软件企业开始投资AI产业,但事实是, 大多数组织甚至都没有员工可以熟练使用人工智能技术。


Tips1:Gartner Group即高德纳,又译顾能公司,公司成立于1979年,它是第一家信息技术研究和分析的公司。Gartner已经成为了一家独立的咨询公司,Gartner公司的服务主要是迎合中型公司的需要,它希望使自己的业务覆盖到IT行业的所有领域,从而让自己成为每一位用户的一站式信息技术服务公司。Gartner评测拥有全球最大的业界基准数据库,Gartner的客户以匿名方式在数据库中占有一席之地,以便从基准测试能力中获得利益,这些能力比如有评测一家企业相对其垂直领域内的同等公司的能力以及评测相对于该数据库中的任何一家公司或所有公司的能力。


在许多关于人工智能及其对行业的影响的调查中,都在警告暗示软件供应商应该首先关注并了解客户业务需求和人工智能的潜在商业利益,然后再追逐淘金热,这被称为“AI Washing”。

Tips2:AI Washing:它是某些企业为了改善自己的产品的形象,迎合大众口味,而进行的一种虚假营销手段。Gartner对外发布了一份“新兴技术炒作周期图”,显示某些软件公司正在利用人工智能这波热浪,夸大AI在其产品中的能力,不加区分地给自己的产品贴上人工智能的标签。“机器学习”“认知专家顾问”“软件定义安全”“自动驾驶汽车”“区域块”等概念正处于炒作顶峰。Gartner公司把这种现象叫做“AI washing”。


目前所存在的“支持技术解决方案的能力”方面的信任缺失问题将在未来10年消失,在接下来的十年中,我们将目睹从局部不信任和怀疑主义到完全依赖AI以及其他先进技术的彻底转变。大多数人工智能应用程序都是面向消费者的,这也是随着时间的推移主流用户克服信任障碍的另一个理由。同时随着数据科学界为他们的日常业务提供更多的技术解决方案,他们将为一个新技术秩序铺平道路。



虽然云等技术为业务流程带来敏捷性,但人工智能和机器学习可以有能力影响业务结果。

按照Gartner的说法:

“人工智能和机器学习已经达到了一个关键的转折点,并日益增加和几乎扩展每一个技术支持服务、事物或应用。”


人工智能的未来:


在后工业化时代,人们一直致力于创造一种行为能够像人类一样的机器。思维机器是人工智能给人类最大的礼物;这台自动机器的巨大投入突然改变了商业运作的规则。近年来,自动驾驶汽车,数字助理,机械工厂的机器人和智能城市已经证明智能机器是可行的。人工智能已经改变了零售,制造,金融,医疗保健和媒体等大多数行业,并继续在侵入新的领域。


机器学习的未来:


以下是关于机器学习的一些预测,基于当前的技术趋势和机器学习系统化走向成熟的过程:


· 机器学习将是所有人工智能系统的组成部分,无论大小。

· 由于机器学习在业务应用程序中越来越重要,因此很有可能将此技术作为基于云的服务提供,称为机器学习即服务(MLaaS)。

· 联网的人工智能系统可以使用机器学习算法,根据互联网上新出现的信息“不断学习”。

· 在硬件供应商之间将会有一个大的冲击,急需增强CPU能力以适应机器学习数据处理。更准确地说,硬件供应商将被迫重新设计他们的机器,以公正地对待机器学习的力量。

· 机器学习将帮助机器更好地理解数据的上下文和含义。


来自IBM大数据中心的文章:机器学习的5个未来预测,提供了上述趋势的描述,地址:

https://www.ibmbigdatahub.com/blog/5-predictions-future-machine-learning



关于机器学习的一些预测:


一位拥有丰富的机器学习经验用户分享了他对机器学习世界的见解,他认为这些趋势在机器学习领域是迫在眉睫的:


· 在机器学习中使用多种技术:物联网的出现在很多方面使机器学习受益。目前机器学习中使用多种技术策略来实现更好的学习;在未来,通过利用多种技术进行更多的“协作学习”是可能的。

· 个性化的计算环境:开发人员可以访问API工具包,从而设计和提交“更智能的应用程序”。在某种程度上,这种努力类似于“辅助编程”。通过这些API工具包,开发人员可以轻松嵌入面部,语音或视觉识别功能嵌入到他们的系统中。

· 量子计算将大大提高机器学算法在高维矢量处理中的执行速度。这将是机器学习研究领域的下一个成果。

· 未来“无监督机器学习算法”的发展将带来更高的业务成果。

· 调优推荐引擎:未来支持机器学习的服务将变得更加准确和匹配。例如,未来的推荐引擎将更加贴近个人用户的喜好和品味。


《Machine Learning and Artificial Intelligence Trends in 2018》中提供了2018年最突出的技术趋势的快速综述。


先进的人工智能和机器学习是否会影响网络安全?


根据目前人工智能和机器学习的研究趋势,网络安全的进步将机器学习算法带入了一个新的学习阶段,这意味着未来以安全为中心的人工智能和机器学习应用将以其及时性和准确性为标志。这种日益增长的趋势可能使数据科学家和网络安全专家更接近于实现共同的软件开发目标。


受益人群:核心行业的人工智能和机器学习


“AI Washing”在当前全球商业市场的影响不容忽视,以及人工智能和机器学习将如何改变未来的应用开发市场。人工智能和机器学习与工业革命初期的发现电力具有相同的重要性。这些前沿技术,就像电力一样,开创了信息技术史的新纪元。

如今,人工智能和机器学习所驱动的系统正在彻底改变各行各业的业务运营方式。这些前沿技术正逐步实现跨行业的变革,如下列举:


在医疗保健


渐渐地,人类从业者和机器将协同工作以提供更好的结果。先进的机器将提供准确和及时的诊断病人的情况,而医疗保健从业者可以更多地关注病人。

在财务


在文章《AI And Machine Learning are the New Future Technology Trends人工智能和机器学习是未来新的技术趋势》中讨论了区块链等最新技术如何影响印度的资本市场。例如,资本市场运营商可以使用区块链来预测市场中的动向并检测欺诈行为。人工智能技术不仅为金融市场中的新商业模式提供了机会,而且巩固了人工智能技术专家在商业投资生态系统中的地位。



在房地产


Contactually.com,是一个面向房地产企业设计的先进CRM系统,专门用于连接华盛顿特区的投资者和创业公司。机器学习算法的额外功能将静态系统转换为实时的交互式机器,它可以响应、批准和推荐相关信息。


在数据库管理


普通DBA系统中的重复任务为人工智能技术提供了自动化流程和任务的机会。今天的DBA拥有先进的工具,因此他们可以为企业做出高价值的贡献,而不仅仅是执行机械式功能。

 

在个人设备市场中


一些商业分析师声称,人工智能是个人设备市场的游戏规则改变者。到2020年,大约60%的个人设备技术供应商将依赖于支持人工智能的云平台来提供增强的功能和个性化服务。人工智能技术将提供一种“情感用户体验”


作者简介

韩吉昌,数据治理咨询工程师,5年以上的IT从业经验,涉及数据治理相关经验4年,曾从事过软件开发、系统集成、数据治理等工作。参与过银行、海关、电力、政府等行业数据治理项目,在数据治理领域,拥有丰富的行业实践经验,为企业提供更优质的数据咨询服务。




人工智能的现状及今后发展趋势展望     


1引言

人工智能(ArtificialIntelligence) ,英文缩写为AI,也称机器智能。“人工智能”一词最初是在1956年Dartmouth学会上提出的。它是计算机科学、控制论、信息论、神经生理学、心理学、语言学等多种学科互相渗透而发展起来的一门综合性学科。从计算机应用系统的角度出发,人工智能是研究如何制造智能机器或智能系统,来模拟人类智能活动的能力,以延伸人们智能的科学。

2目前人工智能技术的研究和发展状况

目前,人工智能技术在美国、欧洲和日本依然飞速发展。在AI技术领域十分活跃的IBM公司,已经为加州劳伦斯·利佛摩尔国家实验室制造了ASCIWhite 电脑,号称具有人脑的千分之一的智力能力,而正在开发的更为强大的新超级电脑—— “蓝色牛仔”(Blue Jean),据其研究主任保罗·霍恩称, “蓝色牛仔”的智力水平将大致与人脑相当。

3技术应用

随着AI的技术的发展,现代几乎各种技术的发展都涉及到了人工智能技术,可以说人工智能已经广泛应用到许多领域,其典型的应用包括:

3.1符号计算

计算机最主要的用途之一就是科学计算,科学计算可分为两类:一类是纯数值的计算,例如求函数的值; 另一类是符号计算,又称代数运算,这是一种智能化的计算, 处理的是符号。符号可以代表整数、有理数、实数和复数,也可以代表多项式,函数,集合等。随着计算机的普及和人工智能的发展,相继出现了多种功能齐全的计算机代数系统软件, 其中Mathematic和Maple 是它们的代表,由于它们都是用C 语言写成的, 所以可以在绝大多数计算机上使用。

3.2模式识别

模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读。这里,我们把环境与客体统称为“模式”。论文参考网。用计算机实现模式(文字、声音、人物、物体等)的自动识别,是开发智能机器的一个关键的突破口,也为人类认识自身智能提供线索。计算机识别的显著特点是速度快、准确性和效率高。识别过程与人类的学习过程相似。以“语音识别”为例:语音识别就是让计算机能听懂人说的话,一个重要的例子就是七国语言(英、日、意、韩、法、德、中)口语自动翻译系统。该系统实现后,人们出国预定旅馆、购买机票、在餐馆对话和兑换外币时,只要利用电话网络和国际互联网,就可用手机、电话等与“老外”通话。

3.3机器翻译

机器翻译是利用计算机把一种自然语言转变成另一种自然语言的过程,用以完成这一过程的软件系统叫做机器翻译系统。目前,国内的机器翻译软件不下百种,根据这些软件的翻译特点,大致可以分为三大类:词典翻译类、汉化翻译类和专业翻译类。词典类翻译软件代表是“金山词霸”了,堪称是多快好省的电子词典,它可以迅速查询英文单词或词组的词义,并提供单词的发音,为用户了解单词或词组含义提供了极大的便利。汉化翻译软件的典型代表是“东方快车2000”,它首先提出了“智能汉化”的概念,使翻译软件的辅助翻译作用更加明显。

3.4机器学习

机器学习是机器具有智能的重要标志,同时也是机器获取知识的根本途径。有人认为,一个计算机系统如果不具备学习功能,就不能称其为智能系统。机器学习主要研究如何使计算机能够模拟或实现人类的学习功能。机器学习是一个难度较大的研究领域,它与认知科学、神经心理学、逻辑学等学科都有着密切的联系,并对人工智能的其他分支,如专家系统、自然语言理解、自动推理、智能机器人、计算机视觉、计算机听觉等方面,也会起到重要的推动作用。

3.5问题求解

人工智能的第一大成就是下棋程序,在下棋程度中应用的某些技术,今天的计算机程序已能够达到下各种方盘棋和国际象棋的锦标赛水平。但是,尚未解决包括人类棋手具有的但尚不能明确表达的能力。如国际象棋大师们洞察棋局的能力。论文参考网。另一个问题是涉及问题的原概念,在人工智能中叫问题表示的选择,人们常能找到某种思考问题的方法,从而使求解变易而解决该问题。到目前为止,人工智能程序已能知道如何考虑它们要解决的问题,即搜索解答空间,寻找较优解答。

3.6逻辑推理与定理证明

逻辑推理是人工智能研究中最持久的领域之一,其中特别重要的是要找到一些方法,只把注意力集中在一个大型的数据库中的有关事实上,留意可信的证明,并在出现新信息时适时修正这些证明。医疗诊断和信息检索都可以和定理证明问题一样加以形式化。因此,在人工智能方法的研究中定理证明是一个极其重要的论题。

3.7自然语言处理

自然语言的处理是人工智能技术应用于实际领域的典型范例,经过多年艰苦努力,这一领域已获得了大量令人注目的成果。目前该领域的主要课题是:计算机系统如何以主题和对话情境为基础,注重大量的常识——世界知识和期望作用,生成和理解自然语言。这是一个极其复杂的编码和解码问题。

3.8分布式人工智能

分布式人工智能在20世纪70年代后期出现,是人工智能研究的一个重要分支。分布式人工智能系统一般由多个Agent(智能体)组成,每一个Agent又是一个半自治系统,Agent之间以及Agent与环境之间进行并发活动,并通过交互来完成问题求解。

3.9计算机视觉

计算机视觉是一门用计算机实现或模拟人类视觉功能的新兴学科。其主要研究目标是使计算机具有通过二维图像认知三维环境信息的能力,这种能力不仅包括对三维环境中物体形状、位置、姿态、运动等几何信息的感知,而且还包括对这些信息的描述、存储、识别与理解。

目前,计算机视觉已在人类社会的许多领域得到成功应用。例如,在图像、图形识别方面有指纹识别、染色体识字符识别等;在航天与军事方面有卫星图像处理、飞行器跟踪、成像精确制导、景物识别、目标检测等;在医学方面有图像的脏器重建、医学图像分析等;在工业方面有各种监测系统和生产过程监控系统等。

3.10智能信息检索技术


信息获取和精化技术已成为当代计算机科学与技术研究中迫切需要研究的课题,将人工智能技术应用于这一领域的研究是人工智能走向广泛实际应用的契机与突破口。

3.11专家系统

专家系统是目前人工智能中最活跃、最有成效的一个研究领域,它是一种具有特定领域内大量知识与经验的程序系统。近年来,在“专家系统”或“知识工程”的研究中已出现了成功和有效应用人工智能技术的趋势。人类专家由于具有丰富的知识,所以才能达到优异的解决问题的能力。那么计算机程序如果能体现和应用这些知识,也应该能解决人类专家所解决的问题,而且能帮助人类专家发现推理过程中出现的差错,现在这一点已被证实。如在矿物勘测、化学分析、规划和医学诊断方面,专家系统已经达到了人类专家的水平。

4 目前人工智能发展中所面临的难题

人工智能(A I) 学科自1956 年诞生至今已走过50 多个年头, 就研究解释和模拟人类智能、智能行为及其规律这一总目标来说, 已经迈出了可喜的一步, 某些领域已取得了相当的进展。但从整个发展的过程来看, 人工智能发展曲折, 而且还面临不少难题,主要有以下几个方面:

4.1 计算机博弈的困难

博弈是自然界的一种普遍现象。它表现在对自然界事物的对策或智力竞争上。博弈不仅存在于下棋之中, 而且存在于政治、经济; 军事和生物的斗智和竞争之中。尽管西洋跳棋和国际象棋的计算机程序已经达到了相当高的水平, 然而计算机博弈依然面临着巨大的困难。这主要表现在以下两个方面的问题。其一是组合爆炸问题, 状态空间法是人工智能中基本形式化方法。若用博弈树来表示状态空间, 对于几种常见的棋类, 其状态空间都大得惊人, 例如, 西洋跳棋为10 的40 次方,国际象棋为10 的120 次方, 围棋则是10 的700 次方。如此巨大的状态空间, 现有计算机是很难忍受的。其二是现在的博弈程序往往是针对二人对弈, 棋局公开,有确定走步的一类棋类进行研制的。而对于多人对弈, 随机性的博弈这类问题, 至少目前计算机还是难以模拟实现的。

4.2 机器翻译所面临的问题

在计算机诞生的初期, 有人提出了用计算机实现自动翻译的设想。目前机器翻译所面临的问题仍然是1964 年语言学家黑列尔所说的构成句子的单词和歧义性问题。歧义性问题一直是自然语言理解(NLU ) 中的一大难关。同样一个句子在不同的场合使用, 其含义的差异是司空见惯的。因此, 要消除歧义性就要对原文的每一个句子及其上下文, 寻找导致歧义的词和词组在上下文中的准确意义。然而, 计算机却往往孤立地将句子作为理解单位。另外, 即使对原文有了一定的理解, 理解的意义如何有效地在计算机里表示出来也存在问题。目前的NLU 系统几乎不能随着时间的增长而增强理解力, 系统的理解大都局限于表层上, 没有深层的推敲, 没有学习, 没有记忆, 更没有归纳。导致这种结果的原因是计算机本身结构的问题和研究方法的问题。现在NLU 的研究方法很不成熟, 大多数研究局限在语言这一单独的领域, 而没有对人们是如何理解语言这个问题作深入有效的探讨。

4.3 自动定理证明和GPS 的局限

自动定理证明的代表性工作是1965 年鲁宾逊提出的归结原理。归结原理虽然简单易行, 但它所采用的方法是演绎,而这种形式上的演绎与人类自然演绎推理方法是截然不同的。基于归结原理演绎推理要求把逻辑公式转化为子句集合,从而丧失了其固有的逻辑蕴涵语义。前面曾提到过的GPS 是企图实现一种不依赖于领域知识, 求解人工智能问题的通用方法。GPS 想摆脱对问题内部表达形式的依赖, 但是问题的内部表达形式的合理性是与领域知识密切相关的。不管是用一阶谓词逻辑进行定理证明的归结原理, 还是求解人工智能问题的通用方法GPS, 都可以从中分析出表达能力的局限性, 而这种局限性使得它们缩小了其自身的应用范围。

4.4 模式识别的困惑

虽然使用计算机进行模式识别的研究与开发已取得大量成果,有的已成为产品投入实际应用, 但是它的理论和方法与人的感官识别机制是全然不同的。人的识别手段形象思维能力, 是任何最先进的计算机识别系统望尘莫及的,另一方面, 在现实世界中, 生活并不是一项结构严密的任务一般家畜都能轻而易举地对付, 但机器不会, 这并不是说它们永远不会, 而是说目前不会。”

5人工智能的发展前景。

5.1人工智能的发展趋势

技术的发展总是超乎人们的想象,要准确地预测人工智能的未来是不可能的。但是,从目前的一些前瞻性研究可以看出未来人工智能可能会向以下几个方面发展:模糊处理、并行化、神经网络和机器情感。

5.2 人工智能的发展潜力巨大

人工智能作为一个整体的研究才刚刚开始, 离我们的目标还很遥远。但人工智能在某些方面将会有圈套的突破。

(1)自动推理人工智能最经典的研究分支, 其基本理论是人工智能其它分支的共同基础。一直以来自动推理都是人工智能研究的最热门内容之一, 其中知识系统的动态演化特征及可行性推理的研究是最新的热点, 很有可能取得大的突破。

(2)机器学习的研究取得长足的发展。许多新的学习方法相继问世并获得了成功的应用,如增强学习算法、reinforcement learning 等。也应看到, 现有的方法处理在线学习方面尚不够有效, 寻求一种新的方法,以解决移动机器人、自主agent、智能信息存取等研究中的在线学习问题是研究人员共同关心的问题, 相信不久会在这引起方面取得突破。

(3)自然语言处理是A I 技术应用于实际领域的典型范例, 经过A I 研究人员的艰苦努力,这一领域已获得了大量令人注目的理论与应用成果。许多产品已经进入了众的智能信息检索技术在Internet 技术的影响下,近年来迅猛发展, 已经成为了A I 的一个独立研究分支。由于信息获取与精化技术已成为当代计算机科学与技术研究中迫切需要研究的课题,将A I 技术应用于这一领域的研究是人工智能走向应用的契机与突破口。论文参考网。从近年的人工智能发展来看,这方面的研究已取得了可喜的进展。

6结束语

人工智能一直处于计算机技术的前沿,人工智能研究的理论和发现在很大程度上将决定计算机技术的发展方向。今天,已经有很多人工智能研究的成果进入人们的日常生活。将来,人工智能技术的发展将会给人们的生活、工作和教育等带来更大的影响。




不要只关心怎么优化模型,这不是机器学习的全部


杨晓凡  科技评论  

AI 科技评论按:机器学习领域的学生、研究员、企业开发者都习惯了在模型的优化上花大量功夫,仿佛取得更高的准确率/AUC/mAP 等等就是机器学习研究和应用的全部。但是很少有人去问:测试表现优秀的模型就真的能很好解决真实世界的问题吗?

可解释的机器学习方向的研究员、《可解释的机器学习》书作者 Christoph Molnar 近日就发表了一篇博客,提醒领域内的各位警醒这种风气,开始注意机器学习的应用中那些不应该被忽视的问题。雷锋网AI 科技评论编译如下。

先讲一个小故事。

德国某处,一个安静的夜里。大多数人都已经沉沉睡去,但我没有。我得把机器学习模型训练完。我在和全世界和我一样对模型着迷的人比拼,我们要看看到底谁的模型能得到最好的预测结果。我电脑的风扇在嗡嗡地响,键盘也被我敲得咯咯吱吱。我目前的模型没拿到什么好名次,在公开排行榜上排在中间而已。真让人来气。模型的准确率其实还过得去,但在这个比赛里,「还过得去」是远远不够的。比所有其他人的模型都好,才是我最终的目标。我还需要更好的特征工程、更好的学习算法。我已经有了一个建立新的特征的好点子,而且我还可以把随机森林换成增强树。训练这个模型应该只需要半个小时时间,然后我就必须去睡觉了。

好几个小时过去了,现在的时间是凌晨三点半。我终于得到了新模型的预测结果,可以冲击排行榜上的新位置了。我满怀希望地点了提交按钮。我已经很累了,「你的结果正在被评估」的提示看起来都那么模糊。我能到多少位呢,能到前  10%  吗?我开始甜蜜地遐想。但真正的结果很快打碎了我的幻象,这一刻我感觉到前所未有地疲惫。别说得到更好的名次了,这个新模型的表现还不如上一个模型。代码里有  bug?过拟合了?还是我上传错文件了?我脑中有一个又一个的问题冒出来,但是理智告诉我自己必须要躺下了。我在床上翻来覆去,然后梦见了一个不停增长、大到我永远没法理解的决策树。

「我得继续改进我的机器学习模型!

掀开眼罩看一看

我自己也曾有过类似这样反复折腾机器学习比赛用的模型直到深夜的经历,现在我已经不会再这么做了,原因有两个,1,正常的睡眠现在对我来说重要得多,2,我对机器学习的认识也有了很大变化。

当我一开始接触机器学习的时候,我认为最重要的机器学习技能就是知道如何训练出表现最好的模型。为了达到这个目标,我把全部的精力都用来学习更多的算法、更多的特征工程技巧、更多的算法评估方法,一切都是为了让模型的误差立刻降下去。我如此地沉迷,以至于我当年甚至为随机森林写了一首诗。

今天我的观点有了很大变化。我觉得「机器学习」这四个字的含义远不仅仅是把损失函数最小化。某种程度上,模型的拟合可以说是最简单的部分了,因为有大批的文献、教材、练习以及实用工具来帮你改善现状。而且你也总能立刻得到反馈(只需要在模型没有见过的数据上进行测试就行),总的来说很让人满意。我觉得,以机器学习整个领域来讲,在模型拟合这方面已经发展得相当成熟了。但是除了拟合模型之外,我们还需要解决很多别的很困难的问题。比如:

  • 如何把现实问题转化为预测任务?

  • 我们如何在预测模型中建立信任机制?

  • 训练数据是否含有偏倚?训练数据和实际部署以后的输入数据相似程度有多高?

  • 如果系统的运行不太正常,如何为机器学习模型 debug?

  • 模型给出的预测(尤其是错误的预测)会对用户和产品本身造成什么样的影响?

  • 在当前的预测和未来会增添的训练数据之间是否存在有害的反馈关系?

  • 一个固定不变的模型在不断变化的环境中会有怎么样的表现?

狗展门口。- 「我的狗训练得很好啊」-「不行!
—— 这就是数据科学家们把最新的模型整合到真实世界的时候的样子

我自己的观点是,机器学习领域内的人们大多数都还只关心怎么优化模型,对我列举的这种模型实际应用中会遇到的问题知之甚少。但好消息是总的来说大家越来越意识到这些问题的存在,也投入更多精力考虑这些问题了。系统性思维、可解释性、公平性、社会影响、数据的角色等等问题都在得到越来越多的关注。

模型的诱惑

我刚开始做机器学习的那几年有一则趣事。我那时候刚加入一家创业公司,负责机器学习相关的几个应用。那时候我的编程水平不如团队里其它的成员,不过我问了很多问题,比如问他们训练用的数据和之后在应用里使用的数据是否类似。我的导师表扬我提了一些好问题,但我自己没明白他为什么要表扬我,显然我那时候心里更在乎的是「我怎么还没学会用  Scala 语言编程」;而且我还觉得,知道怎么构建更厉害的预测模型要比提出这些问题更重要。直到现在我才能完全理解我的导师为什么要表扬我。

经过了五年时间我才终于明白了,「拟合出最佳的机器学习模型」这件事的影响有多小。可明白这个为什么要花五年呢?简单来说,所有的机器学习教学和科研都太过于关注「最好的模型」,因此也就忽视了数据、忽视了人的因素,也忽视了预测模型与所在环境的复杂相互作用。

展开来说的话,让我们通过一个假想的机器学习新人感受一下吧。她的名字叫  Anna,她现在在读电子工程的硕士,有扎实的数学基础,也能够用 C 和 Python  语言写代码。她的机器学习入门第一课是吴恩达的机器学习在线课程,同时她还在看《统计学习基础(Elements of Statistical  Learning)》这本书。和其它所有的教学材料一样,在线课程和书里都是一个接一个地列出各种模型,并且详细介绍模型背后的数学原理。它们几乎不会提到如何认识数据、如何考虑社会和道德影响、如何解释模型、模型的应用场景等等问题。她当然会看到一些应用案例,但这些案例都只不过是经过精心设计的简单理想问题而已。

过了一段时间以后,她开始参加  Kaggle 上的各种比赛。再一次地,她在 Kaggle  上也看到各种经过精心设计的预测问题,简直是喂到嘴边了:在我们看到的比赛背后,Kaggle  已经把最难最累的活都做完了,先寻找企业、数据、问题,把问题转化成预测任务,然后考虑要用哪些数据,可能还需要做一些数据清理和合并,再选一个模型评价标准,这些都由  Kaggle 包办了。那对于参加 Kaggle  比赛的人来说,给他们剩下的事情除了特征工程以外,当然就只有「拟合出最好的模型」这一件事了!赢走了比赛奖金的都是谁呢?不是模型表现优良、有可解释性的团队,不是当别人要花几天训练的时候他们只需要几秒钟的团队,不是模型真的有机会部署在生产环境中的团队,因为这些模型的预测准确率注定不会是最高的。所以  Anna  也就跟着相信,机器学习就只不过是找到预测表现最佳的模型,而且这个信念越来越牢固。这不是开玩笑,大家都看得到,得到了奖金和荣誉的就是那些能做出预测表现最佳的模型的人,

所以  Anna  对机器学习的热情也跟着被点燃了,她想要在下一个比赛中拿到更好的名次!幸运的是,机器学习社区很棒、很开放,有很多讨论如何调试模型表现的技术博客可以供她学习,也有很多最新的机器学习库可以让她从  GitHub 上克隆使用。她终于明白:机器学习就是拟合出最好的模型。

Anna  也开始意识到机器学习这个领域有多么年轻、学术界和工业界的联系又有多么紧密。 为了了解最前沿的技术,她开始阅读机器学习的学术论文。从哪里开始呢,嗯,当然是读引用数最高的论文了!那么哪些论文引用数高呢?当然是研究常见科研任务模型的论文和各种机器学习框架的论文了……

数据科学家们的毕生梦想:一个模型,解决一切(就像魔戒的「一枚戒指,统治一切」)

可以说,在 Anna 的这一路上,她都时时刻刻在感受到这条最简单的信息:想要做好机器学习,你就需要深入研究建模算法(以及一些特征工程的技巧)。而除此之外的方面,几乎见不到人提起。

拟合模型不是唯一重要的环节

说了这么半天我想已经说明白了,只会赢 Kaggle 比赛是不足以称得上机器学习专家的。那欠缺的知识都是什么呢?以我的浅见,下面这些课题的重要性被完全忽视了,整个机器学习领域都需要开始注意这些问题。

  • 问题的格式化把一个实际问题转化为一个预测或者模式识别问题。

  • 数据生成过程理解数据,明白数据在解决问题中的限制和适用性。

  • 模型解释用交叉验证的性能估计方法之外的方式分析模型

  • 应用场景思考模型会如何和真实世界相互影响

  • 模型部署把模型集成到产品或者计算过程中

这里只是简单列了几项,大家可以继续补充。

你完全有可能在拟合出了最好的模型之后在这几个方面犯错,然后你的模型就会变得没用,甚至变得有害。当你的训练数据和应用中的实际数据不匹配的时候,你的模型可能根本给不出正确的预测结果。当你的高管担心模型是个黑盒子所以拒绝使用它的时候,你得拿出白板想方设法给他们解释。假如你发现你的模型对不同肤色的人有偏倚,那你最好别使用这个模型。

只要你把问题的格式化、数据、解释、场景和部署做好,你的项目就可以非常成功了,你的模型预测准确率很一般都没关系。其他方面如果做不好,那么即便是调试很久的、在测试数据上完美无缺的集成模型也只能被扔进垃圾桶。

做错容易,做对很难

机器学习模型完全可以有好的预测表现,但是带来的影响和人们预期的相反,我给大家讲个故事来说明一这点。我有个朋友在一家电信公司工作,这家公司的业务之一是销售移动通信套餐(通话+短信+流量)。他在公司的数据科学团队工作,然后公司想要预测哪些客户最有可能不继续使用套餐,他也是这个项目的成员;做这个预测的目标是给可能不再继续使用的客户提供性价比更高的套餐。那么,这个项目团队就着手构建了一个机器学习模型,这个模型分辨用户的能力也相当不错。然后他们把高概率的用户列出来,给到另一个团队,这个团队会和这些用户逐一联系,给他们提供更优惠的套餐。

那么结果呢?取消这家公司套餐的人更多了,而不是更少了!

事后他们才意识到,他们逐一联系那些有可能不再使用他们的服务的用户,这提醒了对方不能继续使用这家公司的套餐。联系用户的举动反倒成了使得他们最终解约并转向别的运营商的导火索。

为什么不对劲了?从一开始他们尝试把实际问题变成预测问题的时候就出错了。他们的模型预测了「客户  X 解约的可能性如何」,但他们实际上需要预测的是「当我们联系客户 X  的时候他解约的可能性如何」。这也可以看做是和应用场景相关的问题,他们没有仔细考虑联系已经有了解约心思的人之后的后果到底是什么。这个例子里,模型构建可以得  10 分,但问题的格式化和应用场景考虑只能得 1 分。

别以为你的队友们就靠得住

那么是不是只有初学者才会在用机器学习解决真实世界问题的时候犯错?当然不是。想要学习拟合模型之外的机器学习技能,最好的方法就是参与解决真实世界的问题。不过这还不算完,你必须真的希望自己在拟合模型之外的方面也变得更厉害。

只有经验是不够的。谷歌、亚马逊之类对机器学习有大规模长期投入的企业,是不是就掌握了模型优化之外的方方面面了呢?其实也没有。即便他们有那么多博士、有那么多资金、有那么多经验、有那么多数据、那么多技术特长,他们也还没能完全弄清楚。实际上他们也还在犯一些很蠢的错误,因为在真实世界任务中应用机器学习就是很难。

我举几个大公司用了机器学习然后搞砸了的例子:

  • 谷歌照片(Google Photos)会把黑人分类为黑猩猩。然后他们的解决方案是不再让模型预测黑猩猩这个类别。这就好像你家的墙漏水了,你贴了张墙纸遮住了事,而不是找你楼上的邻居谈谈。

  • 谷歌流感预测(Google Flu Trends)会高估流感的发生几率。他们已经下线了这个产品。它的工作方式是关注那些和流感发生有很高相关性的词语,然后似乎把「高中篮球」之类的完全没有因果关系的词也学进去了。

  • 亚马逊建立的招聘工具有性别偏倚。亚马逊拿自己的招聘数据训练了模型,然后模型就简单直接地反映出了亚马逊在招聘时的性别偏倚(也就是说,更倾向于招男性)。所以他们一直都没有使用这个工具。但同时他们的潜台词是: 我们不用这个工具就没事,当前确实存在的性别偏倚也就当作不知道了。和上面一样,贴墙纸遮住了事。

为什么不用数据简化你的生活呢?为什么不?

如果工作里没有什么反馈告诉你做的对不对、做的好不好,你可能会觉得很疲惫。尤其是做学术研究,或者你没有直接上级的时候,不确定自己现在做的事情有多大意义是挺常见的一件事。如果有个老板或者上级告诉你应该做什么,感觉上会轻松一点,但是我偷偷跟你讲个实话,没人能真的弄明白。不管你做了十几年还是几十年,不管你有多少社会阅历,你都不可能从某一天开始就对这个世界上的一切都一清二楚。

有一种解决办法是用数据度量你的进展,这会给你提供一些反馈。可以算是通向成功的指标吧。

  • 「今天我读了 5 篇论文。

  • 「这周我做完了一个 10 页的报告。

  • 「我的网站这个月有 10k 访问量。

  • 「今年我拿到了 20k 的奖金。

某种程度上,用数字度量成功是一种很棒的方法,能帮你简化工作、帮你更高效地工作。不过这些数据也过于简化了「成功」这件事,怎么可能把所有条件用简单的几个数字就表示出来呢。

  • 比如你收入很高,但你不喜欢你的工作内容。那你还成功吗?

  • 比如你的论文经常被引用,但你对真实世界还没造成什么实际的影响。那你还成功吗?

  • 比如你有上千个关注者,但是没有人在看完你的动态之后点赞留言。那你还成功吗?

  • 比如你在机器学习竞赛中取得了很靠前的名次,但是你偷偷利用了数据里的漏洞,就和其它排在前面的参赛者一样。那你还成功吗?

其实很难说什么时候要为了达成某个数字而努力,什么时候又不要。在我看来,如果要在「达成数字」和「难以测量的工作」(比如研究新的产品,而不是卖更多旧产品)做一个取舍的话,整个社会的口味都严重偏向于达成数字的那一边。机器学习领域也是一样。

当我觉得某人仿佛在「为达成某个数字而努力」的时候,我脑海里会浮现出赛马的景象。有一匹很漂亮、很强壮的马, 经过人们的训练它可以跑得很快。然后如果它在比赛里获得了好的名次,人们就会给它奖励胡萝卜吃(我不太确定马是不是特别爱吃胡萝卜,不过为了方便我讲故事,我们暂且认为马最爱吃的就是胡萝卜吧)。为了让马的注意力完全集中在目标上,人们给马眼睛上戴了眼罩,它会遮住马对左右两侧的视野,让它们只看得到前面。现在我们就是这些赛马,我们每个人都带着眼罩,让我们只能「盲目」地为了评价指标而努力。但是很多时候,如果我们左右看看的话,也许赛道边上就是一片无人照看的胡萝卜地。

作为机器学习这个领域内的成员,我们已经在错误的机器学习比赛里面比拼了太久了。我们得摘掉头上的眼罩。所以我写了这篇博客,希望能启发更多人摘掉自己的眼罩,以及希望这个领域的关注点能够不再局限于模型表现,而开始更多地关注数据、解释性、应用场景以及社会影响。

via :

https://bentoml.com/posts/2019-04-19-one-model/


先进制造业+工业互联网




产业智能官  AI-CPS


加入知识星球“产业智能研究院”:先进制造业OT(自动化+机器人+工艺+精益)技术和工业互联网IT技术(云计算+大数据+物联网+区块链+人工智能)深度融合,在场景中构建“状态感知-实时分析-自主决策-精准执行-学习提升”的机器智能、认知计算系统;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。


云、大、物、链、智等工业互联网IT技术分支用来的今天,制造业者必须了解如何将“技术”全面渗入整个公司、产品、业务等商业场景中,利用工业互联网形成数字化、网络化和智能化力量,实现行业的重新布局、企业的重新构建和焕然新生。

深度融合的先进OT技术和工业互联网IT技术作为第四次工业革命的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。


版权声明产业智能官(ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。





Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/35049
 
480 次点击