从诞生到现在,人工智能已经走过了66年,潘云鹤将其分为三个阶段。第一阶段是1956年达特茅斯会议之后,规则和逻辑驱动的人工智能;第二阶段是20世纪60~70年代,从逻辑进化到知识和推理驱动的人工智能,当时的知识型人工智能,不但使用逻辑,而且使用比逻辑更加广泛的人类经验,思维方式比现在更加“类人”,但当时的知识表达都是字符型,视觉和声音的信号怎么变成知识并没有解决。
2012年,这块空白被神经网络所填补,人工智能发展进入第三阶段,此后发生的一切,大家便熟知了,深度神经网络在视觉识别、听觉识别、文字识别、多媒体人工智能方面得到了极大突破,但同时也产生了很多缺点,比如不可解释的“黑盒”、大量需要标注的数据。
“这些缺点都和只采用数据而不采用知识有很大关系。”潘云鹤表示,现在人们常说AI的逻辑能力很难训练,但其实早期的AI逻辑能力很强,只是现在这一轮的深度神经网络技术没有这个能力,所以要将两者联合起来使用,他称之为“知识和数据共同驱动”的人工智能。
潘云鹤指出,人工智能第四阶段是将数据和跨媒体智能、跨媒体知识表达相结合,对视觉的对象进行识别、分析和模拟,其中,开路先锋很可能就是视觉、文字等其他知识的多重知识表达,也即这两年技术上正在突破的多模态人工智能。
比如,此次大会讨论的中心“元宇宙”,便是典型的跨媒体人工智能。元宇宙要同时模拟物理世界和人类社会,这需要人工智能不仅有大量的设备识别,还要大量的视觉生成。