MIT团队发明真正能“看懂”世界的机器学习模型，91%的参与者认可其表现效果

人工智能时代，机器可以替代或协助人类做很多事情，此类应用在生活和工作中随处可见。生活中，有无人餐厅、超市货物递送和扫地机器人等；工作中，有信息采集及分类检索、智能加工、数据分类及内容分发等。

图｜人工智能部分应用场景（来源：Pixabay）

然而，上述应用更加倾向于执行，离真正“智”的层面还有一定的距离，以及需要技术进一步突破。就像办工桌上放着一台电脑和两部手机，机器人无法对这三个物体之间的位置关系进行描述。

当人类看到同样的场景时，则可以定性地讲出他们之间的位置关系，比如在桌子的中间放着一台电脑，其中一部手机在电脑的左边，另一部在电脑的前边。

人工智能机器人与人类看到的同样的场景不同的表达，本质区别在于，无法理解两个甚至多个物体之间存在的纠缠关系，这也是为什么很多深度学习的人工智能机器人“看不懂”物质世界的原因。

如果对物质与物质之间的纠缠关系不了解，就无法真正做到智能，例如帮厨机器人很难执行“将酱油放电磁炉的一边，然后再将醋拿起来放到另一边”之类的命令。

为了解决人工智能机器这一应用难题，麻省理工学院（Massachusetts Institute of Technology，MIT）科学家研发了一个模型，可以帮助机器理解部分场景中物体与物体之间的潜在关系。

图｜物体场景关系理解（来源：麻省理工学院官网）

该团队所研究的模型每次可以表达一个单独的关系，然后将每次的表达结合起来对整个场景进行描述，进而使得这个模型可以从文字表述中生成更加精准的图像，相当于在所描述场景中对不同关系的多个单一关系进行排列组合。简单来说，该团对制备的新模型可以像人类一样与周围环境中的物体进行互动。

该研究在未来工业机器人领域具有非常广泛的应用前景，尤其是针对步骤多、操作复杂的任务。

譬如，大型制造业工场中存放的器件或者设备组装。值得关注的是，该模型还可以使机器能够像人类一样，从各类场景中学习并且与周围环境进行有效互动。

机器学习模型可双向工作

麻省理工学院电子输入控制系统计算机科学与人工智能实验室博士研究生杜依伦（音译）表示：“通常，当我见到一张桌子时，不会说在 XYZ 坐标系中有一个物体，这不是我们大脑正常的思维表达。事实上，我们是基于物体之间的关系去理解一个场景的。”

图｜杜依伦（音译）（来源：麻省理工学院官网）

杜依伦还表示，如果能开发一种理解物体和物体之间关系的系统，人们就有可能利用发明的系统去改变和操纵周围的环境。

该团队开发的系统可以通过物体，以及物体所关系的文本描述生成“桌子左边放置蓝色的凳子，右边放置红色沙发”的场景图片。

然后，机器学习模型系统将这些文本划分成两个小的部分，对凳子和沙发这两个单独的物体关系进行描述，再对这两个部分进行单独建模，通过场景图像的优化将这两个关系组合在一起。

机器学习模型将每段关系分割成更短的句子，以排列组合的形式对他们进行重组，如此丰富的关系片段可以对之前没有见过的场景进行描述。

更有趣的是，该机器学习模型还能逆向工作，先生成一幅给定的图像，再和场景中的物体关系相互匹配。

机器学习模型还可理解复杂场景关系

除了上述一对一关系理解，这种机器学习模型还可以理解复杂场景的关系，于是该团队将句子从 1 个增加到 4 个。实验结果表明，该模型仍然可以对生成的图像准确描述。

为了进一步测试，研究人员还将他们的模型和其他类似的深度学习方式系统做了对比，在每次比赛中，该团队所发明的模型，在每个实例都比其他基线表现更佳。

图｜机器学习模型测试场景（来源：资料图）

除此之外，该团队还验证了机器学习模型生成的图像和初始场景的描述是否匹配，以最为复杂的场景关系为例，参加测试的人中有 91% 觉得新模型系统表现效果更佳。

该团队对开发的机器学习模型的稳定性非常满意，尤其是陌生场景的描述。该团队表示：“这是一项非常有前景的开发，因为它和人类的大脑场景描述逻辑类似。我们的模型可以从人类看到的数个场景中提炼有效信息，创造无数个不同的组合。”

该机器学习模型有一种可以从更少的数据中学习、总结的特性，可以生成更复杂的场景或图像。

未来，该团队希望将他们的机器学习模型应用于机器人系统中，让机器人学会从场景中判断物体之间的关系，进而利用深度学习模型操纵地球上空间中的物体。

-End-

参考：
https://news.mit.edu/2021/ai-object-relationships-image-generation-1129