TAN:Tree Augmented naive Bayes 是在最大带权生成树算法基础上,通过下列步骤将特征之间依赖关系简化为如下图所示的树型结构:
(1) 计算任意两个特征之间的条件互信息。记第 个特征 代表的结点为 ,标记代表的节点为 则有:
如果两个特征 相互条件独立,则
则有条件互信息 则在图中这两个特征代表的结点没有边相连。
(2) 以特征为结点构建完全图,任意两个结点之间边的权重设为条件互信息 。
(3) 构建此完全图的最大带权生成树,挑选根结点(下图中根节点为节点 ,将边置为有向边。
(4) 加入类别结点 ,增加 到每个特征的有向边。因为所有的条件概率都是以 为条件的。