对当代社会科学中许多重要问题的实证分析,往往涉及时间的维度。例如,为了衡量社会经济地位的代际传递,我们需要能够将父母与他或她的成年子女联系起来的数据;而要估计童年环境的长期影响,我们通常需要同时观察一个人作为儿童和成人的情况。令人兴奋的是,越来越多普查性的历史数据集被公开(如美国的1900-1920年人口普查的全量数据),从而为社会科学家探索历史问题提供了极为有利的条件。
然而,这些早期数据往往没有调查对象的唯一识别码。因此,即使研究者拿到了完整的个体数据,也难以将其在不同的数据集中匹配起来,以构造面板数据进行分析。为了解决这个难题,来自美国国家经济研究所的Joseph Price等人提出了一种新的机器学习算法,帮助研究者以较高的准确度,匹配不同普查数据集中的巨量个案,从而为构造历史面板数据提供了新的可能性。
研究者采用了有监督的机器学习实现了高质量的匹配。传统上,这种算法有赖于人工编码员的艰辛劳动。它需要构造庞大的人工标注“训练集”,成本高昂。然而,研究者巧妙利用了一个在线家谱平台——Family Search上“现成”的数据。一方面,Family Search招募志愿者,将美国1900-1920年十年一次的人口普查的100%样本进行了全量数字化,包括每个人的姓名、出生年份、出生地、性别、种族和居住地,以及他们父亲和母亲的出生地信息。
另一方面,Family Search允许任何人建立自己的家谱,并可以让用户将自己家庭的信息和前述的人口普查信息相链接。这样,研究者就“不费吹灰之力”获得了一个高质量的人工标注集,因为他们预计,这些家谱用户对自己的家庭有着更为准确的理解,也有准确匹配的兴趣和动机。在对这些用户构造的匹配进行了抽样检验后,研究者确认了这个匹配集有着相当高的准确度(超过94%),并提供了1230万对人工匹配。
图 1 Family Search 上的个人数据实例
进一步,研究者将这1230万对正确匹配作为训练集,来预测剩下的几千万条数据之间的匹配。在此之前,他们对训练集进行了一系列预处理操作,如消歧(将名称缩写和昵称标准化)、选择分块(Blocking)和匹配特征,以及比较和选择机器学习算法。最终,研究者采用XGBoost算法执行了预测,并配合使用其他方法提高预测的精度(流程如图2所示)。
机器学习的匹配结果实现了1900年、1910年和1920年美国人口普查全量数据之间的个体的较高精度的匹配。其中,1900年和1910年的匹配度为68%、1910年到1920年为71%,而假阳率为12%,达到了目前记录匹配算法最高的精度和效率。
家族史研究与记录自动匹配方法的结合,有可能提高社会科学研究人员,特别是经济史学家可获得的数据的质量和数量,使得一些看似不可用的数据得以“变废为宝”。Joseph等人提出利用在线家谱平台的人工标记数据,通过机器学习实现记录自动匹配的方法,有着一定的参考价值。随着在线家谱平台在世界各地的广泛使用,研究人员有可能利用机器学习方法,将其他国家和地区的记录匹配起来。