演讲实录丨汉斯·乌思克尔特：结合不同类型机器学习进行的信息和知识提取

人类的技能的基本就是把知识能联系起来，能把所有的技能联系起来，然后加以应用和加以分享，能学习，能比较。

9月15日，在由中国人工智能学会学术指导的全国博士后学术交流活动上，欧洲科学院院士，深知无限人工智能研究院(AITC)院长、首席科学家，德国人工智能研究中心(DFKI) 科学董事，联想研究院AI首席顾问汉斯·乌思克尔特发表了题为“Combining different types of machine learning for information and knowledge extraction”的演讲。

下为汉斯·乌思克尔特院士在本次大会中的演讲实录，经整理后发布。

汉斯·乌思克尔特：非常感谢李教授，我非常喜欢他的演讲，可以说讲的非常好，他谈到了愿景和现实也有很好的结合，在我的演讲里面我也尽量现实一点，跟大家分享一下我个人的经验，特别是在机器学习的应用方面，以及建立知识架构方面，我希望能够做到至少有一点远见。我们知道有广义的和窄义的AI，在今天的AI我们称为窄义上的AI，因为我们知道AI能开车，能识别人脸，能翻译，能下围棋，通常同样一个AI的模型不能做很多的事情，但是人类是不同的，人类可以做各种完全不同的事情。

现在让我们再看一下历史，看一下这两种系统，一个系统是做窄面的事情，可以反映有很长的历史，还有其他的系统，他们拥有知识，能够去做不止一件事，可以做很多事情。所以在一开始，我们在机器学习开始的时候，在AI系统一开始是基于标准，基于规则的，我们可以检查一个人是否能够获得相应的信用卡，要检查他的信用情况等等，所以基于知识的AI。我们还有一些机器人，我们可以给他编程，像人类一样做事情，这就是初期的AI，机器人可以去解决一些问题，遇到障碍可以停下来，这是把程序作为一个流程来安排的。

那么机器人也是有知识的，四处移动，一开始这些东西都是编号成序的，还有另外的一些方面，一方面是谷歌翻译，可以翻译成很多句子，即使他不理解其中的意思，也可以做到这点，对人类来讲无法做到，我们只能在理解之后进行翻译，但是谷歌的机器翻译可以翻译这些内容，模仿人类，就像自动驾驶一样，模仿人类驾驶来进行。另外机器识别，机器识别不用理解所说话的意思，无论讲什么内容但是可以去识别。另外有IBM watson系统，也打败了美国智力挑战的专家，它是信息量丰富的，也是非常神奇的一个系统。IBM有一些人类挑战赛的冠军，IBM可以做到把圣经，把维基百科，把这些知识存储到里面去，watson可以使用。

当然还有其他的系统，可以从人类的回答里进行分析，可以去模仿人类，就像小的鹦鹉一样可以重复人类所说的知识。还有一些能学习的类似于机器人，像德国的DFKI的系统，我们也讨论很多，它也有很多的来自于大数据的知识。这些系统也使用一些机器学习，逐渐扩大知识，也同样在内部使用深度学习，深度学习也是非常强大的，需要让它做很多事情，即使需要很大的知识量。人类的智能，在不同人类的技能也是相互联系的，比如说当我游泳的时候，这和我的识别别人人脸的功能是完全不相连的，人类的技能可以互相分开的，但是需要完全不同的知识，我能够把不同的知识和技能应用在不同的活动上面，比如我骑自行车向左转，我可以用一只手掌握车把，或者走一个曲线的路子。翻译的时候我可以翻译，我可以识别人脸，比如说在座的各位里面，我找出肤色白和肤色稍黑的人，这也是需要一定的技能。

这是不同的技能，我们可以把所有的技能都综合起来，所以人类的技能的基本就是把知识能联系起来，能把所有的技能联系起来，然后加以应用和加以分享，能学习，能比较。下面让我很快过一下这些内容，我们都知道这些内容，我们知道在指导下的学习，我们有各种各样的数据，还有一些没有监督的或者没有指导下的自主学习，还有非常重要的就是这种半指导性下的学习有很多方法，比如说我们把一些数据予以标记，可以去进行分析，然后有些数据不用有太多的标记，这样我们就可以去减轻人类的工作强度。还有一种叫做较少指导下的学习，我们很少有例子，这些例子能被标识。我们用非常好的数据，这样机器能找到更多的类似的数据根据标签，这样可以进行更多的学习，更好的建造学习架构。

机器可以自动加标记，因为已经有这些数据了。还有机器性的学习，我们都知道机器的学习，这些系统能够意识到有些数据是缺失的，他们可以去寻求这些数据，或者说文字我不认识，请给我翻译一下，因为缺少例子，你可以给我更多的例子，更多的数据，作为机器性的学习。第二个就是强化学习，刚才李教授提到了，也就是获得强化学习的闭环。那么还有就是机器学习，也就是机器教授，可能我们称之为课程学习，大家都有一种观念就是把数据进行分离开来，把它们成为更简单的数据和更困难的数据，可能对于孩子会给他们更简单的数据，随着他们的成长，要给他们更困难的数据，所以这是一种很简单的方式。这样的方式当中，我们就可以进行难度的增加，所以这叫做课程的学习。

实际上在我们的程序语言处理当中，我们不知道其他的方面或者是领域，如果说你是通过一个简单的物体开始，那我们就有不同的学习分层，或者是不同的目标区分，也是从最简单的开始，然后大家会展示他们的一些积极的学习成果，这可能就是机器的教授。教授是一层，然后机器是另一层，我们就把它加入整合起来，就是机器教授。那我们来讲授一下这种应用，机器人和自动驾驶的区别是什么？其实我们现在所说的AI是非常狭义的概念，比如说智能汽车以及其他各个领域的应用，但其实对于AI技术非常关键的一点就是帮助人们做决定。我们知道现在的数据非常庞杂，我们的大脑也是有限的，我们并不能处理这么庞杂的数据，其中的一个例子就是公司智能，那我们可以看到在公司智能中间部分，就是我们要运用新的AI技术，来为我们提供平台，帮助公司做决定。

那我们可以看到CIA，也就是中情局，可能和情报局是不一样的，那在英国我们在英语当中，我们情报和智能是一个词，但是在中国智能实际上和情报是不一样的，我们在这里强调的是智能。在德国也是，我们是有两个不同的单词，那现在企业，非常重要的一个观点，其实让企业获得成功的方面是在公司之外的，大家在工厂当中，就是我们收入的来源，就是客户支付钱，如果我们没有技术来支撑的话，或者是说我们的客户，我们的供应商没有给我们提供足够的原料，或者是我们的投资者并没有为我们持续的投资，而出售了我们的股份，或者是我们的分销商并没有继续分销我们的产品，这就会给公司造成损失。

现在作为一个中国的公司，我们可能有两万或一万的人，而且我们将商品出口到世界各地，其实很多的供应商不在中国，而且一些客户也可能是在非洲和法国，我们的竞争者可能在瑞士，所以我们怎么样来认知，对这些不同的成分进行认知呢？我们怎么样看待这些全球化的不同的组成实体呢？那其实我们有一个夏明的工厂就找到我们来到柏林，他们来到我们的智能研究中心，可以帮助我们来监控或者是观察我们的客户吗？我不知道我们的产品的什么特征他们会喜欢，我们的客户喜欢什么样的产品，比如西班牙，他们说不同的语言，所以我不知道他们需求是什么。如果我们把这写都整合起来，就是一个智能企业。那其实，中情局也是同样的道理，并不是说作出最终决定，他们是得到这些所有的信息来帮助他们作出选择。

我们并不是说使用人工智能来取代人，当然了在很多领域，AI能取代人的功能，但是我们现在能给人们赋权，能让人更好的作出决定，更好的辅助他们的工作。那在行业当中，我们可以通过人工智能帮助人作出更加明智的决定，比如在一些领域，他们是不能取代专家的产品经理或者是市场调研员，因为在这些领域，AI所起的作用是帮助他们更好的筛选和分析数据，作出更具逻辑的结论和决定。所以这是我们现在的人工智能形式。其实有来自全世界的数据，然后我们的大脑作出决定，这个决定最终会影响公司。我们的大脑从世界获取数据，同时也从公司获取数据，还有一些其他的知识以及人们自有的认知的知识，这样我们就可以作出更加明智的决定。

这个是传统科学，这个部分就是我们的智能，左边部分可以取代的，右边部分是不可以取代的，右边部分的作用就是帮助CEO作出更好的决定。我们所要做的就是能够使无论是这些无架构的或半架构的整个系统联系起来，在其中当中，我们有这些知识曲线，知识图表，无论是谷歌，还是其他的媒介，我们希望有这些数据知识图表，可能也是我们的大众所使用的。那从传统意义而言，公司会使用不同的产品以及不同的标准，他们有自己的知识库，他们有自己的自主的知识产权，自主的技术。那其实我们想要进行数据的交换和交流，我们想有竞争力，我们不想从公众当中复制和获取数据，因为公众当中有一些数据是根据技术和材料的，但是你不想获取这些已经现有的数据，我们想具有竞争力。

所以我们希望有这样的一个知识社区，通过这样的事实社区提取出自己所需要的知识，所以在我们德国就有一家，我们可以为公司构建自己的知识架构。这样的知识架构，它并不同于我们的百科全书这样的公众知识，那其中我们可以看到这个数据源，它是从左到右，但是并能从右到左，也就是我们能从百科当中提取知识，但并不是说我们提取出来的知识或者数据再放到提取源当中，是单向的，而不是双向的。这样大的知识数据库当中，我们现在已经有30亿的数据和DBPedia合作。

第二点我想说知道了解我们的竞争者或者是你的客户，他们并没有把产品的数据发给你，或者说没有用一种结构式的方式告诉你们，他们所喜欢的产品，但是他们可能会为你的产品进行评论，或者是发布了一些新闻，那可能你的竞争者在面临财务危机，还有其他的情况，我们需要从庞杂的信息以及文本当中提取有效的信息。我们提取出来这些信息，或者是话题，答案，姓名，事实，实践，观点，以及客户的情绪等，那我们就通过大数据的处理方式，还有在柏林我的同事所研究出来的一种程序进行这些信息的处理，它可以帮助我们数据形成数据流，形成点的形式。

那我给大家展示一下现在有什么样的问题，如果我想收购一家公司，或者我想了解他的破产情况，产品，那其实人类有很多的方式表达同样的观点，同样的句子，比如说一家公司收购另一家公司，我们有很多方式表达这句话，这个很复杂。我们想要知道的就是它其中的模式，这是正确的关联关系，绿色的就是，黑色的不感兴趣，红色就是我们想找出来的，绿色就是模式，这样我们就能了解我们的竞争者。

现在我们所做的就是监管式，我们已经取得了很多的例子，我们获得了一些公司的图表，它已经存在了在知识库当中存在，然后我们找到这些描述公司的句子，他们的价格，还有其他的信息。比如说2008年的并购，我们会得到相应的信息，可能通过微软，我们进行语义分析，因为我们要知道客体和主体是什么，其实这样的程序，只知道两个公司，并不知道谁是采购的，谁是被收购的，所以我们可以看到绿色的部分就是模式。

第二次就可以筛选绿色的部分获得新的信息，同时我们已经放了两千个案例，基本上直说有五十到两千个案例在其中，我们就可以看到整个图。现在我们来跳到下一部分，这是我们现在所采用的一个方式，我们在处理语言的时候，我们需要有不同的步骤，这是中国的排序，他们没有空白，那我需要把它进行分区，我们需要找到每一个部分的语义是什么样的，我需要找到现在的表达方式是什么，因为同一种语义可能会有数百万的表达方式，但我要看一下现在的流行表达方式是什么，还有现在的组织的坐落点以及人所处的位置，这些都是我们的机器可以进行学习的，比如说在这儿，我们要利用神经语言网络学习，大家可能知道LSTM是一种长期短期的记忆系统，它是德国所开发的。

同时，我们还有使用这些监管架构来进行学习，以及包括数据过滤，为什么我们要进行这方面的实施呢？因为我们现在对于大脑的构造和模式，还并不知道我们只是进行模仿，而且我们使用这种知识的方式，充满知识的机器学习方式，那这种系统不止是从数据当中学习，同时也可以从外显的知识当中学习，他们可以把语义和术语联系起来。我们通过外围的数据进行筛选，有相应的案例，那所以整个学习流程并不是从空白的方式开始的，而是基于其他人所给予我们的知识，空白的知识，我并不相信，所以我们需要在这个知识库当中放入更多的知识，进行再度学习。

这是一种分阶段式的学习，那我们再跟大家分享一下我们的观点就是通过把隐性知识和外显知识结合起来，充分利用人的认知，这是革新性的资产，如果只有具有逻辑性的知识，我们同样也需要这些包括知觉或者是技能知识的总结，在人工智能方面，我们需要把隐性知识和显性知识结合起来，就像汽车一样，用混合动力的，意味着人工智能和人脑结合方面，也就是把所有的学习整合起来。最重要的一点我们要理解数据，收集数据，可以把收集的信息进行简化。这样的结合可能运用到现在行业的各个领域。现在在医药领域，行业工业领域或者是汽车制药领域都可以使用这样的比如通过X光检测产品的质量，但是并没有帮我们进行正确的决定，所以如果做出更合理的决定，我们需要把显性知识和隐性知识结合起来，谢谢大家。

CAAI原创丨作者汉斯·乌思克尔

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会

更多学会活动演讲实录陆续更新，欢迎关注中国人工智学会微信公众号CAAI-1981。

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/qIcUj1aCu0