那么,交叉熵是什么?比较理论的定义是,当你用一个概率分布去描述另一个概率分布时,会有多大不(yi)同(wai)。
在是非题中,事件的结果无非“是”与“不是”。用p表示参数b下事件结果为“是”的概率,用q表示结果为“是”的真实概率。那么,用p代表q所产生的交叉熵即为
-qlog(p)-(1-p)log(1-p)
这个交叉熵就是参数为b时的损失。
然而,我们无法知道事件结果为“是”的真实概率,仅仅是观测了训练集里样本的标签。在这种情况下,只能用这个观测到的标签去代表真实分布。当标签是1时,就令q=1,否则,令q=0。这时,概率q和标签y是一样的取值,最终,对任一样本的取值为
-ylog(p)-(1-y)log(1-p)
以上是关于交叉熵的常见解释,我不是特别喜欢这个解释,特别是用样本的标签来代表真实概率。我一般用另一个方法去思考交叉熵的形式。你可以考虑一个样本,如果其标签为0,给你的信息量是多大?参见第4节,信息量是-log(1-p),也就等于
-0log(p)-1log(1-p),这不正是交叉熵的式子么?
