Py学习  »  机器学习算法

【机器学习】机器学习这10年我们能在各自的领域做点什么?

产业智能官 • 5 年前 • 428 次点击  

为什么要学习和了解机器学习?

Benedict Evans 认为,最终几乎所有的东西都会有机器学习,到那时人们对机器学习已经是习以为常、见怪不怪了。到这一步还有多久呢?10-15年。

这不禁让人思考:这10年,我们能利用这个契机在各自的领域做点什么呢?正如以往的各种技术浪潮兴起时,比如工业革命、电力革命、互联网、移动互联网,还有作者在文中说到的关系数据库技术等,那时各领域的创新者们都是如何响应的呢?

如果希望10年后能在自己的领域有所影响力的,利用机器学习应该是一个好的机会。跟自己相关的是学习领域,所以如何利用机器学习来提升学习的效率,是这一年多来在探索的命题。

假若10年机器学习技术真的对人类的学习方式、方法及效率带了本质的改变,希望其中能有一点自己的贡献。

下面是学习 Benedict Evans 这篇文章记的笔记以及自己的一点思考。

讨论机器学习务实方式

机器学习又被称作“人工智能 (AI)”。这个名字有好有不好。好的方面是,很容易抓眼球,获得大家(包括投资人)的注意力。不好的是,容易跑偏。大家容易想象成一种具有通用智能的东西。

作者举了很好的例子:

在自动化的每一波浪潮中,我们都想象我们正在创造一些拟人化的东西或具有通用智能的东西。在上世纪20、30年代,我们想象钢铁侠拿着锤子在工厂里走来走去,在50年代,我们想象人形机器人在厨房里走来走去做家务。但我们没有机器人仆人,我们有用来清洗的机器。

所以“人工智能将接管所有的工作” “数据是新的石油” 类似的话题都过于高屋建瓴,对深入理解机器学习并无益处。

更务实且有助于理解和解决问题的方式应该是:机器学习可以看作是另一种意义上的自动化,在概念上跟传送带或取放机并没有什么不同。它每次只能解决一个单一问题,每个问题都需要不同的实现方式、不同的数据、不同的路径,而且往往需要不同的公司。洗碗机洗碗,洗衣机洗衣服,机器学习跟它们一样,都是自动化的一部分。

找到机器学习应用场景的两套工具

作者在文中提供了两个思维角度,来寻找具体产品中机器学习的应用场景。

工具一:从数据和要解决的问题的类型上来思考,主要有三类:

(1)如果你有相关数据,机器学习可以提供更好的结果(数据分析)

比如:Instacar 公司建立了一个系统,来优化个人购物者在超市中的路线,结果是相关超市有50%的提升。这是由三名工程师利用谷歌的开源工具 Keras 和 Tensorflow 建立的。

(2)机器学习可以对已有数据提出新的问题(数据挖掘)

比如:就像正在找线索的律师,可以通过寻找有关“愤怒的”或“焦虑的”以及其他异常的线索,带来新的发现。

(3)机器学习可以用来直接分析音频、图像或视频数据,以前无法做到。这意味着图像传感器和麦克风变成了一种全新的输入机制(增加可分析数据类型)

比如:一家为汽车公司提供座椅的公司,在一个便宜的DSP芯片上安装了一个神经网络,并配有一个便宜的智能手

机图像传感器,用来检测面料是否有褶皱。

作者还特意指出,这个识别面料是否有褶皱,跟识别一张图是否是猫并不是同一个问题。我想他的意思应该是,用于工业界和实际产品中技术,并不需要像识别一张照片是否是猫这种认知层面的技术。能低成本地解决环节中任何一个哪怕是细小的问题,都是好的。至于能不能叫“人工智能”又有什么关系,它的本质是将以前无法自动化的任务给自动化了。

工具二:自动化的感觉(上面讲的这种自动化)

这个似乎有点虚无渺茫。你要想象这种自动化是一种低层次的自动化,并不需要像有20年经验的专家那样。

作者打了一个比方,还挺有意思的。他说有了机器学习这个工具,就像是给了你无数个可以用的实习生,或者是10岁的孩子。

5年前,机器能区分只能是照片的大小。一位10岁的孩子,可以分出男女。一位15岁的青少年可以分出酷或者不酷。一位实习生则能区分出有趣的人或无趣的人。现在的机器学习,已经可以达到10岁孩子甚至是15岁青少年的能力,但也许永远达不到实习生的水平。

那么问题来了:在这种情况下,如果你有一百万15岁青少年(即机器学习)来帮忙看照片,你会怎么做呢?同理,你会怎么通过他们来听电话,来识别图片,来监测信用卡转账信息呢?

(也许可以想一想再看答案...)

我们可以要求“他们” 听完所有的电话,找出其中听起来有些生气的那些;读完所有的邮件找到显得“焦虑”的那些;看完所有照片,找出酷的(至少是‘有点怪’)的,而在这之后的事情可以交给人来处理。所以,机器学习并不需要成为专家本身。

而这本质上就自动化一直在做的事,就像是 Excel 和 Photoshop 一直在为我们做的事情一样。

将一个重复多次的独立任务自动化,这同样是机器学习要做的。

当然上面这个比喻也有不适用的时候,比如机器在有的领域会超越人类,比如围棋。AlphaGo 就是一个很好的例子。但是这种领域足够狭窄,有具体且有限的规则,机器通过规则推演可以看到全部数据,而人类反而做不到的情况,是非常少见的。所以绝大多数的机器学习应用,还是上面说的“自动化”。

最后,结合自己的一点实际经验,说一说自己的体会,主要有两个方面。

第一,先摘低垂的果实

“低垂的果实” 是从万维钢的得到专栏《精英日课》听来的译法,英文是low hanging fruit,指的是相对不需要费太大力气就能获得的。

不是所有的人或公司都要追求10倍创新,那些让希望赋予机器认知能力的事情可以由大公司来做。对于一个直接面向用户的产品来说,什么能提升体验、能创造新的用户价值,就用什么。不为所谓“人工智能”之名所累,一切以解决问题和提升效率为优先,是更务实的态度。

第二,机器学习在用户量级大的系统解决方案型产品中更能发挥出效能

一是因为机器学习是靠数据驱动,用户量级大,收集的数据多,训练和迭代模型都更有利。另一个原因是,因为机器学习优化的可能是整个体系的一个环节,其效能需要在多次重复使用中发挥出来。这种回报后置要求,一在获得成效前要有长远眼光,二在取得成效后,需要系统将其效能放大。

比如,一个自适应的英语水平测评做得非常精准,但人们不一定愿意持续为测评付费。更好的情况是,测评后面还有一整体套提升英语水平的付费课程。

总之,机器学习是一个我们不想也不能忽视的趋势。它已经被应用于各行各业的各个环节,也将被应用于更多的场景,以此来提升效率。



关于机器学习你必须了解的十个真相


作为一个经常向非专业人士解释机器学习的人,我整理了以下十点内容作为对机器学习的一些解释说明。


  1. 机器学习意味着从数据中学习;而AI则是一个时髦的词。机器学习并不像天花乱坠的宣传那样:通过向适当的学习算法提供适当的训练数据,你可以解决无数的难题。把它称之为AI吧,如果这有助于销售你的AI系统的话。但你要知道,AI只是一个时髦的词,这只代表了人们对它的期望而已。


  2. 机器学习主要涉及到数据和算法,但最主要的还是数据。机器学习算法特别是深度学习的进步,有很多令人兴奋的地方。但数据是使机器学习成为可能的关键因素。机器学习可以没有复杂的算法,但不能没有好的数据。


  3. 除非你有大量的数据,否则你应该坚持使用简单的模型。机器学习根据数据中的模式来训练模型,探索由参数定义的可能模型的空间。如果参数空间太大,就会对训练数据过度拟合,并训练出一个不能使自己一般化的模型。如果要对此做详细解释的话,需要进行更多的数学计算,而你应该把这一点当作为一个准则,让你的模型尽可能得简单。


  4. 机器学习的质量与训练所用数据的质量强相关。俗话说“你往计算机输入一堆垃圾,输出的一定也是一堆垃圾数据”,虽然这句话的出现早于机器学习,但这恰恰是机器学习存在的关键限制。机器学习只能发现训练数据中存在的模式。对于监督机器学习任务来说(例如分类),你需要一个健壮的、正确标记的、丰富的训练数据集。


  5. 机器学习只有在训练数据具有代表性的前提下才会起作用。正如基金招股说明书警告的那样“过去的表现不能保证未来的结果”。机器学习也应该发一个类似的警告申明:它仅能基于与训练数据相同分布的数据才能工作。因此,需警惕训练数据和生产数据之间的偏差,并经常性地重复训练模型,这样才能保证其不会过时。


  6. 机器学习大部分的工作是数据转换。在机器学习技术天花乱坠的宣传下,你可能会认为机器学习所做的主要是选择和调整算法。但现实却是平淡无奇的:你大部分的时间和精力都将花在数据清理和特征工程上,也就是将原始特征转换为能更好地代表数据信号的特征。

  7. 深度学习是一场革命性的进步,但并不是灵丹妙药。由于机器学习在很多领域都得到了应用与发展,因此深度学习也被宣传得天花乱坠。此外,深度学习促使一些传统上通过特征工程进行的工作变得自动化,特别是对于图像和视频数据。但深度学习并不是灵丹妙药。没有现成的可以让你使用,你仍然需要投入大量的精力去清理和转换数据。

  8. 机器学习系统很容易受到操作员错误的影响。向NRA道歉,“机器学习算法不会杀人,是人在杀人”。当机器学习系统出现故障时,很少是因为机器学习算法存在问题。更有可能的情况是人为的错误被引入了到训练数据中,从而产生偏差或其他的系统错误。我们应始终持怀疑的态度,并采用适用于软件工程学的方式来对待机器学习。


  9. 机器学习可能会在无意中创造了一个自我实现的预言。在机器学习的许多应用中,你今天所做的决策会影响明天收集的训练数据。一旦机器学习系统将偏差融入到模型中,它可以会继续生成偏差增强了的新训练数据。 而且,一些偏差可能会毁掉人们的生活。请负责任一点:不要创造自我实现的预言。


  10. AI不会自我觉醒、造反并毁灭人性。相当多的人似乎是从科幻电影中得到有关人造智能的概念的。我们应该从科幻小说中得到启发,但并不能这么傻,把小说误认为是现实。从有意识的邪恶人类到无意识的有偏差的机器学习模型,有太多的现实和危险需要担心。所以你可以不用担心SkyNet和“superintelligence”(译者注:SkyNet和superintelligence分别是科幻电影和科幻小说)。

机器学习涉及到的内容远远超过我上面提到的十点说明。希望这些介绍性的内容对非专业人士有用。

 本文来自 aecaawang 的CSDN 博客 




机器学习项目失败的9个原因



作者|Alberto Artasanchez
译者|刘志勇
编辑|Debra
AI 前线导读:前不久,小编看到这么一个数据,说是截止到目前,最近三年大约有两万个机器学习项目失败了。这到底是怎么回事呢?我们姑且撇开失败这一现象不谈,就来看看 Alberto Artasanchez 给我们总结的项目失败的九个原因,避开失败的陷阱吧!这篇文章很有看头,详细介绍了在机器学习项目中可能会遇到的一些问题。

老实说,这文章题目起得……诸位看官是不是觉得有点末日启示录的既视感呢?嗯,实际上,我并不希望有人因此感到受了伤害,我要你们知道,我是支持你们的,衷心希望你们的项目能够取得超出预期的成功!我写本文的初衷,并非要给你们施加什么巫毒啊,什么诅咒啊,让你们的项目只能失败无法成功。不是这样滴!我写这篇文章,只是例举了数据科学项目失败的最常见的原因,我希望,我列举的这九个原因,如果能够帮助你们避开项目失败的陷阱,我的目的就达到了。

1. 提出错误的问题

如果你提错了问题,那么你得到的答案肯定是错误的。金融行业和欺诈识别问题就是这样的一例。本来嘛,最初提出的问题可能是“这笔特定的交易是否存在欺诈?”。如果想要确认是不是存在这个问题,你就需要一个包含欺诈和非欺诈交易示例的数据集。而这个数据集很有可能就是人工帮助下生成的,也就是说,这个数据集里的数据标记可以由专门负责检测欺诈行为的主题专家(subject matter experts,SME)来决定。但是,专家很有可能使用他们以前所见过的欺诈行为来标记数据集,这样一来,用这种数据集对模型进行训练,模型将只会捕获所标记的老旧模式的欺诈行为。如果犯罪分子发现了一种新的欺诈方式,我们的系统就会无法发现这一欺诈行为。所以,更好的问题可能是“这笔交易是否有异常现象?”。因此,它不一定要去查找过去已被证明存在欺诈行为的交易,它应该寻找的是不符合交易“正常”签名的交易。即使在最为复杂的欺诈检测系统中,也要依靠人类来进一步分析预测的欺诈交易来验证模型的结果。这种方法有一个副作用就是,它很有可能会比以前的模型产生更多的误报。

这种失败类型的另一个例子同样来自金融领域。投资界的传奇人物 Peter Lynch 就经历过这种类型的失败。

在担任 Fidelity Magellan 基金担任董事期间,Lynch 的年化回报率高达 29%,在多数年份中超越了市场水平。但 Lynch 自己也指出了美中不足之处。他计算出,他基金中的普通投资者在同一时期只赚了 7% 左右。例如,当 Lynch 遇到挫折时,资金就会通过赎回流出基金;而当他重回正轨时,资金又流回基金,但这样一来就错过了市场的复苏。

看看下面提出的两个问题,你觉得哪个更好回答?

  • Fidelity Magellan 基金明年的业绩会如何?

  • 明年 Fidelity Magellan 基金的购买或赎回数量是多少?

    2. 试图用它来解决错误的问题

第二个常犯的错误就是不关注业务用例。在提出需求时,你应该将注意力集中在这个问题上:“如果我们解决了这个问题,它会不会大大增加业务的价值呢?”要回答这个问题,当你将问题分解成子任务时,初始任务就应该集中在回答这个问题上。举个例子,假设你想出了一个人工智能产品的好点子,现在,你开始想兜售这个点子。让我们假设这个点子是一项服务,使用这种服务,你可以将全身照上传到网站,人工智能应用程序会确定你的尺寸,这样它就可以根据你的体型,为你量身定做一套适合你的西装。让我们来看看完成这个项目需要执行的任务都有哪些吧。

  • 开发人工智能 / 机器学习技术,从照片中确定身高等尺寸。

  • 设计并创建一个网站及一个手机 App,以便与客户进行交互。

  • 进行可行性研究,确定此产品是否有市场前景。

作为技术人员,我们会渴望进行设计和编写代码,因此,我们可能会立即着手处理前两项任务。你可以想象,如果我们执行完前两项任务后,才开始进行可行性研究,而研究结果表明,我们的产品没有市场,那该是一个多么可怕的错误啊!

3. 没有足够的数据

我有一些项目已进入生命科学领域,我们遇到的一个问题就是,某些数据根本就买不到,哪怕花多少钱都不行。生命科学行业对受保护的健康信息(protected health information,PHI)的存储和传输非常敏感,因此你所能找到的大多数数据集都会删除这种信息。在某些情况下,这些信息是相关的,会提高模型的结果准确率。例如,个人位置可能对他们的健康统计有显著的统计影响:像密西西比州的人群比康涅狄格州的人患糖尿病的可能性更高。但由于这些信息可能无法获得,因此我们将无法使用。

另一个例子就是金融行业的。在这个领域中可以找到一些最有趣和相关的数据集,但是出于同样的原因,这些信息中的大部分,都可能非常敏感,并且受到严密保护。因此对它的访问可能会受到很大的限制。但是如果没有这种访问权限,就不可能实现相关的结果。

4. 没有正确的数据

就算你有最好的模型,但你如果使用了错误的数据或者脏数据的话,可能会得到预测错误的结果。在监督学习中,我们使用之前标记过的数据。在许多情况下,这种标记通常是人工完成的,但有可能会出错。假设的一个极端例子就是,有一个准确性很完美的模型,但它使用的是不准确的数据,会怎么样呢?想一想那个 MNIST 的数据集吧,当我们使用这个数据集来运行模型时,我们假设图像的人工标记是 100% 准确的。现在,我们假设有三分之一的数据被错误标记,会发生什么样的结果呢?那么,不管你的模型有多好,你还会觉得你的模型产生任何像样的结果,有多大的困难吗?要记住,“无用数据入,无用数据出”(garbage in, garbage out)这一古老的格言,在数据科学领域仍然存在。

5. 有太多的数据

从理论上讲,你永远不会有太多的数据(只要它是正确数据的话)。在实践中,即使存储和计算成本、性能有了巨大的进步,我们仍然会受到时间和空间的物理限制。因此,就目前来讲,数据科学家最重要的工作之一,就是明智地选择出他们认为会实现准确的模型预测产生影响的数据源。举个例子,我们假设正在尝试预测婴儿的出生体重。直觉告诉我们,产妇年龄似乎是一个相关特征,但母亲的名字可能不相关,而地址可能是相关的。另一个例子是 MNIST 数据集,在 MNIST 图像中,大多数信息都在图像的中心,因此我们可以在不丢失大量信息的情况下删除图像周围的边框。同样的,在这个例子中,需要人工干预和直觉来确定移除一定数量的边界像素将对预测产生最小的影响。最后一个降维的例子是使用主成分分析(Principal Component Analysis,PCA)和 T 分布随机邻域嵌入(T-distributed Stochastic Neighbor Embedding,t-SNE)。在运行模型之前,确定这些特性中哪些是相关的仍然是计算机的一个难题,但它是一个成熟的领域,可以将该过程实现自动化。与此同时,拥有太多数据仍然是一个潜在的陷阱,可能会破坏你的数据科学项目。

6. 招聘错误的人

你不会相信医生会给你修好车子的,对吧?但你应该会相信机械师会给你做好结肠镜检查。如果你有一个小型的数据科学实践,你可能别无选择,只能依赖一个或几个人来执行所有的任务,从数据采集和数据获取、数据清理和数据再加工,特征工程和生成,到模型选择以及在生产中部署模型。但随着团队的成长,你应该考虑为每一项任务聘请专家。ETL 开发专家所需的那些技能,自然语言处理专家未必也掌握同样的技能。此外,对于某些行业,如生物技术和金融,拥有深厚的领域知识应该是有价值的,甚至是至关重要的。然而,拥有主题专家背景和具备良好沟通技巧的一个数据科学家可能是一个合适的选择。随着你的数据科学实践的进展,拥有合适的专业资源确实是一项棘手的平衡工作,但拥有合适的资源和人才库才是你成功实践的最重要因素之一。

7. 使用错误的工具

这里有很多使用错误工具的例子。一种常见的陷阱是谚语“我有一把锤子,那么所有东西在我眼里都只是一枚钉子”(译注:这是英语谚语,用来形容狭隘的思维方式。对于那些偏爱某种特定的分析或解决问题方法的人,会不由自主地用它来解释或解决任何现象或问题。)我举个行业上更具体的一个例子:最近,你派遣了团队进行 MySQL 培训,完成培训之后,你需要设置一个分析流水线,让他们牢记所培训的东西而不会遗忘,于是他们建议使用新的工具。但是,根据流水线将要处理的数据量以及你需要对结果执行的分析量,这种选择对作业来说,很可能是一种错误的选择。因为许多 SQL 产品对可存储在单个表上的数据量有严格的限制。在这种情况下,使用像 MongoDB 这样的 NoSQL 产品或者像 AWS Redshift 这样的高度可扩展的列式数据库(columnar database)可能是更好的选择。

8. 没有正确的模型

模型,就是对现实的简化表示。这些简化是为了去掉不必要的错误、噪声和细节。一个好的模型能够让用户专注于在特定领域中重要的现实的特定方面。例如,在市场营销应用中,保留客户电邮和地址等属性可能很重要。但在医疗环境中,患者的身高、体重和血性可能更为重要。这些简化都是基于假设;这些假设在某些情况下可能成立,但在其他情况下不见得同样成立。这一点表明,在某种情况下运行良好的模型,在另一种情况,可能未必也适用。

在数学中有一个著名的定理:“没有免费午餐定理”(No Free Lunch,NFL)。这个定理指出,没有一种模型能够适用于所有的问题。适合一个领域的假设运行很好的模型,未必适合另一个域,因此,在数据科学中使用多个模型进行迭代,试图找出最适合给定情况的模型并不罕见。这点在监督学习尤为如此。验证或交叉验证通常用于评估具有不同复杂性的多个模型的预测准确率,以找到最合适的模型。此外,一个有效的模型也可通过多种算法进行训练得到,例如,线性回归可以通过正规方程或梯度下降来训练。

AI 前线注:没有免费午餐定理 (No Free Lunch,简称 NFL) 是 wolpert 和 Macerday 提出的“最优化理论的发展”之一。该定理的结论是,由于对所有可能函数的相互补偿,最优化算法的性能是等价的。该定理暗指,没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。

根据用例的不同,确定不同模型和算法的速度、准确性和复杂性之间的权衡是至关重要的,并使用最适合给定领域的模型。

9. 没有正确的标准

在机器学习中,能够评估已训练的模型的性能至关重要。必须根据训练数据和测试数据来衡量模型的性能。这些信息将用于选择要使用的模型、超参数选择以及确定模型是否已准备好用于生产。

为了衡量模型的性能,最重要的就是要为手头的任务选择最佳评估指标。关于指标选择的文献有很多,因此我们不会深入讨论这个话题,但是在选择指标时,我们要及记住的一些参数是:

  • 机器学习问题的类型:监督学习、非监督学习和强化学习。

  • 监督学习的类型:二元、分类或回归。

  • 数据集的类型:如果数据集不平衡,则不同的指标可能更合适。

结   论

导致项目失败的方法有很多,但解决问题的最好方法只有一种。成功的定义,可以由不同的标准来衡量。这个解决方案是寻找快速而肮脏的补丁来解决问题的吗?你是在寻找最好的解决方案吗?你看重的是模型训练速度呢,还是看推理端点可用性呢?或者模型的准确性?也许发现某个解决方案不起作用也可视为一个胜利,因为现在你不必在这个解决方案上再浪费时间,可以把重点放在寻找其他替代方案上。

原创: AI前线 原文链接:https://www.kdnuggets.com/2018/07/why-machine-learning-project-fail.html




为什么机器学习之路没有捷径可走?



作者|Matt Asay
译者|Sambodhi
编辑|Debra
AI 前线导读:机器学习如火如荼。很多公司都想走捷径,试图实现“弯道超车”。但是,机器学习之路是没有捷径可走的,也需要厚积薄发。妄图跳过这些阶段实现“弯道超车”无异于揠苗助长。所谓“弯道超车”,大意是说中国有“后发优势”,可以充分借鉴欧美的先进技术,不用斥巨资搞研发就能赶超欧美。这根本就是错误的思想,这种投机取巧的心理非常危险。要知道,像 Google 、Microsoft、Facebook 等高科技企业,每年研发费用都在 100 亿美元左右,美国之所以能够成为世界科技强国、科技大国,就因为他们舍得花钱搞研发,耐得住寂寞去搞研发。小编真心希望,国人能够摒弃“走捷径”、“抄近道”、“弯道超车”这种投机取消的心理,沉下心来,踏踏实实去学习,搞研究,不要再出现“汉芯”、“红芯”这样的事件了,只有这样,我们才会有未来。

大数据仍然是少数人的游戏——只占 1%。不过据 O'Reilly 最新的调查数据,这一比例为 15%。这一调查显示,大多数企业(高达 85%)并没有掌握人工智能和机器学习的精髓。仅有 15%“复杂”的企业在生产中运行模型超过 5 年。重要的是,这类公司倾向于在模型偏差(model bias)和数据隐私等关键领域投入更多的时间和精力,而新手们却还在苦苦寻找入门的途径。

AI 前线注:O'Reilly 的调查见《The State of Machine Learning Adoption in the Enterprise》(http://u6.gg/ewdrm)

不幸的是,对于那些希望通过抄近道(如使用 Google AutoML)或者通过有偿顾问来缩小数据科学差距的公司来说,答案似乎是:要掌握数据科学,需要时间,没有捷径可走。

聪明的公司专注于数据的深层次

首先,有一点需要注意的是,O'Reilly 的调查数据是来自一群自我选择的人:参加 O'Reilly 的活动或通过网络研讨会,或其他方式与公司合作过的人们。这些人对数据科学非常感兴趣,即使其中大多数人并没有真正利用过数据科学(如调查数据所示)。然而,对于那些沉迷于大数据体验的人来说,这是一个伟大的群体,那些被称为“复杂的”人们拥有在生产中运行模型超过五年以上的经验。

这次调查中,有一个有趣的数据就是这些人如何谈论自己。拥有丰富数据经验的公司将数据科学称为“数据科学”。如图所示,那些还受困于 90 年代“数据挖掘”思维模式的人们更喜欢“分析师”这一称号。


无论公司如何称呼他们的数据专家,企业拥有人工智能和机器学习的经验越多,他们就越有可能依赖内部数据科学团队来构建企业的模型,如下图所示。


实际上,没有人指望云机器学习服务(至少就目前来讲还没有),而那些拥有不到两年生产经验的公司则倾向于依靠外部顾问来构建机器学习模型。对这些公司来说,这可能是一个机会,可以无需在人员下血本就能够从数据科学获得好处,但这种做法着实很愚蠢。

使用数据的公司越复杂,他们的数据科学团队构建模型的能力就越高,并且能够评估项目成功的关键指标。在所有公司中,产品经理倾向于定义项目成功指标(36%),执行管理(29%)和数据科学团队(21%)也参与其中。

但对于经验丰富的公司来说,尽管产品经理仍然是被引用最多的(34%),但数据科学领头人(27%)与执行主管(28%)大致相当。

经验最少的公司则倾向于寻求依靠高级管理层(31%),很少依靠他们的数据科学领头人(16%)。这些都不是问题,因为数据科学团队完全有能力找出如何使用数据并衡量其成功与否。

很多时候,是问道于盲

这种依赖高级管理层来推动数据科学的做法,让人联想到一项调查(详见 http://u6.gg/ewc7t), 这项调查显示,高管们自称是数据驱动型的,但忽略了那些不支持直觉决定的数据(62% 的人承认自己就是这么做的)。

对大数据缺乏悟性的企业,似乎口头上承认数据的重要性,但他们并不理解有效数据科学的细微差别。他们缺乏必要的经验,而这种经验能够确保他们收集有意义的、没有偏见的数据见解。

当 Gartner 的 Andrew White 谈到理解机器学习模型以及如何在结果中培育信任时,那些更为复杂的企业就会明白他这一言论背后的意义:

人工智能的新颖之处在于,人工智能能够重新划清界限:那些我们认为过于复杂、毫无规律的事务,现在可以用人工智能加以利用。正如我们预期的那样,人工智能可以处理比以往技术更复杂、需更多认知的工作。

只有在人工智能的自动化工作有意义的情况下,这一新的现实才能在光天化日之下继续存在。如果这个太过复杂的黑盒子做出了人们无法理解的决策,并改变了结果,那么人们很可能会因此关掉黑盒子。因此,在某种程度上理解决策是非常重要的。

但是,理解或解释决策与理解算法的工作方式是两码事。人们应该能够掌握输入、选择、权重和结果的原则,即使算法将这些原则组合到连我们都无法证明其过程的程度。如果结果和近似输入之间的差距过大,那么对算法的信任很可能会失败,这就是人性。

AI 前线注:出处参见《The Difference between Decision Making and AI》(http://u6.gg/ewcCq)

要达到这种理解水平,并不是用一个顾问的价格就能够买到的。而且,它也不是现成的云机器学习。像 Google 的 AutoML 这样的工具宣称:“让拥有有限机器学习专业背景的开发者能够根据业务需求去训练高质量的模型。”这听上去真是太棒了!但是,要想从数据科学中得到好处,还是需要具备数据科学的经验。这并不仅仅是一个调整模型的问题,而是要知其然知其所以然。需要进行多次的反复试验才能达到这种境界。

此外,正确进行数据科学研究需要一种文化心态,而这种文化心态同样也来自经验。捷径,是不存在的!这意味着,那些较早投资数据科学领域的公司,应该会发现,与那些没有竞争优势的同行相比,自己占据领先地位,而这种优势很可能会持续下去。

对于那些希望迎头赶上的公司而言,Gartner 分析师 Svetlana Sicular 的经典建议依然是正确的:“公司应着眼于内部。比神秘数据科学家更了解自己数据的人,其实就在公司内部。”只要公司能够明白优秀的数据科学家的养成是需要时间的,并为这些人提供学习和成长的空间,他们就不会寻求什么捷径。

原创: AI前线  原文链接:https://www.infoworld.com/article/3297063/machine-learning/why-there-are-no-shortcuts-to-machine-learning.html?upd=1534978424699



工业互联网




产业智能官  AI-CPS


加入知识星球“产业智能研究院”:先进产业OT(工艺+自动化+机器人+新能源+精益)技术和新一代信息IT技术(云计算+大数据+物联网+区块链+人工智能)深度融合,在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链



版权声明产业智能官 (ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。




今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/Nia0Q2zCFG
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/25788
 
428 次点击