在许多情况下,用户编写的标记函数利用无法在生产环境中投放的组织知识资源 (a)(例如汇总统计数据、内部模型或者因为速度太慢或成本过高以至于无法在生产环境中使用的知识图),训练仅根据生产可投放特征(例如成本低廉的实时网络信号)进行定义的模型 (b)
在 Snorkel DryBell 中,我们发现用户可以根据非可投放的特征集编写标记函数(即表达其组织知识),然后使用 Snorkel DryBell 生成的训练标签输出训练根据不同可投放特征集定义的模型。这种交叉特征迁移将我们在自己创建的基准数据集上的性能平均提升 52%。更广泛地说,这向我们展现了一种简单而有效的方法,即使用速度很慢(例如,成本高昂的模型或汇总统计数据)、私有(例如,实体或知识图)或者不适合部署的资源来针对廉价的实时特征,训练可投放模型。我们可以将这种方法视作一种新型的迁移学习,不过不是在不同的数据集间迁移模型,而是在不同的特征集间迁移领域知识。这种方法不仅可应用到工业领域,在医学等其他行业中也有应用前景。