为此,我们尝试将因果变量与观察量通过因果表示学习联系起来 (6)其中是一个非线性函数。如图二所示,高维的观察量(图像)是由未知的因果系统的状态产生,然后我们希望用一个神经网络提取这些高层变量,以求在下游任务中取得更好的效果。在什么条件下我们可以找到这些可以用于因果模型的粗略变量呢?解答这个问题是很有挑战的。定义因果关联的对象或变量,可以被归结为估计这个世界的更细致的模型,例如微观结构方程模型、常微分方程、temporally aggregated time series等。定义可用于因果模型的单元,对人和机器都是有挑战的,这与现代机器学习领域试图学习鲁棒、可解释、公平的数据表征的目标是一致的。我们应该尝试将SCM嵌入到等大的机器学习模型中,它的输入输出可能是高维非结构化的,但内部有一部分是由SCM决定的。这样的模型可能会是模块化的架构,不同的模块可以被微调或用于新的任务,SMS假说也可被用于学习合适的结构。图三展示了,对因果变量稀疏的干预(改变个别变量),会造成图像中稠密的变化(很多像素发生变化),在有些情况下,例如改变光照或视角,会导致所有像素都变化。接下来我们讨论考虑因果表征学习的三个机器学习问题。