Py学习  »  机器学习算法

社会学的机器学习 │ 社论前沿

社论前沿 • 4 年前 • 412 次点击  

编者按:本期推送的是美国康奈尔大学学者Mario Molina 和 Filiz Garip发表于Annual Review of Sociology的文章Machine Learning for Sociology。机器学习是统计学和计算机科学交叉的一个领域,它使用算法从数据中提取信息和知识。笔者简要介绍了这个庞大的工具箱,并说明了它目前在社会科学中的应用。译者对文章有所删减。


这是社论前沿第S1406期推送

微信号:shelunqianyan


引言


机器学习(ML)寻求从数据中自动发现,它代表了计算机科学的一个突破,过去的智能系统通常涉及固定的算法(逻辑指令集),这些算法为所有可能的输入编码所需的输出。现在,智能系统从数据中学习并估计发现某些输入(x)表示的复杂函数,或将输入链接到输出(y),以便对新数据进行预测(Jordan&Mitche, 2015)。ML可以看作是非参数统计的一个分支(Kleinberg,2015)。我们可以根据ML工具如何从数据中学习来对其进行分类。不同类型的ML使用不同的算法,对智能的基本原理提出不同的假设(Domingos ,2015)。


研究方法


有监督的机器学习(SML)包括搜索函数f(x),该函数预测给定输入(解释性或自变量x)的输出(因变量y)。在SML中,当输出是离散的时称为分类,当输出是连续的时称为回归。人们可以考虑不同类别的函数,如线性模型、决策树或神经网络。让我们把线性模型作为预测的工具。我们有一个输入向量x,希望用这个模型对输出y(表示为y_)进行预测。其中x t是向量转置,β是系数的向量。{Y = f (X ) = X Tβ ,}假设我们使用社会学中最常用的方法普通最小二乘法(OSL)从数据中估计函数f(x)。我们从n个观测值的数据中选取系数β,使残差平方和最小化,这是ML中许多可能的损失函数之一:

[yi − f (xi )]2 + λR( f ),i=1

也就是说,在样本误差加上正则化R(f),它惩罚产生方差的函数(kleinberg等人,2015)。一个重要的决定是选择λ,它为方差设定相对价格(Kleinberg等人,2015)。在OLS中,这个价格被设置为零。在SML方法中,价格是通过数据来确定的。

SML技术寻求在减少样本内误差和样本外误差(即分别是训练误差和泛化误差)之间达到理想的平衡。这个目标有助于避免数据分析中的两个陷阱:拟合不足和拟合过度。当一个模型不适合手头的数据时,就会出现拟合不足的情况:作为一个简单的例子,如果真正的关系是二次关系,那么只有一个线性项将输入和输出链接起来的OLS模型就不适合。当一个模型对手头的数据拟合得太好而无法预测新输入的输出时,就会出现过度拟合;例如,一个具有n个输入(加上一个常数)的OLS模型将完全拟合n个数据点,但它很可能不会很好地推广到新的观测(Belloni等人,2014)。


机器学习的应用


1、政策与理论发展预测

如果研究人员不想立即了解x和y之间的关系,而是想使用x来预测新数据中的y,那么SML是一个用于策略预测的有用工具。Salganik和他的合作者开始挑战预测脆弱家庭和儿童福利研究数据的教育(和其他)结果。组织团队对150个多学科团队提交的测试(保持)数据的预测准确性进行了评判。在正在进行的第二阶段中,团队计划对获胜模型中的不一致案例进行深入研究,因此,将预测视为产生新见解和理论的第一步,而不是最终目标。

学者们将SML应用于经济学、人口统计学、政治学和犯罪学中的各种问题。Kleinberg等人(2015)使用Lasso模型预测哪些患者将从医疗保险受益人的关节置换手术中受益最多。Billari等人(2006)依靠决策树来区分意大利人和奥地利人在生命历程事件的时间、顺序和数量方面的差异。


2、因果推理

社会科学家通常对确定投入(治疗)对产出的因果影响感兴趣。SML工具可以在某些涉及预测任务的因果推理过程中提供帮助。作为入门,考虑因果推理的基本问题:我们仅在一个条件(治疗或控制)下观察个体(或任何分析单元),不能测量治疗效果的个体水平变化。相反,我们关注的是总体平均效应,我们将其视为整个人口的同质效应(Xie,2013)。在实验设计中,我们随机将个体分配给治疗组和对照组,并通过比较两组之间的平均产出直接估计平均因果效应(Imbens&Rubin,2015)。


3. 数据扩充与插补

学者们使用SML进行数据链接和扩充。例如,Feigenbaum(2015年)输入人类编码数据,训练SML算法,将个人连接到人口普查波中。Abramitzky等人(2019)开发一种全自动方法,以估计跨CEN SUS波的匹配概率,然后测量代际职业流动性。使用嵌套设计,Bernheim等人(2013)招募一部分被调查者参加实验室实验,并将他们在实验室的回答作为培训数据,估算剩余样本的回答。学者们也同样转向有监督的主题建模(Blei&Mcauliffe,2010),使用人类识别的主题作为训练数据,对更大的文档集进行分类(Hopkins&king,2010)。研究人员也在使用SML来填补缺失数据。Farhangfar等人(2008)调查了15个数据集中不同ML分类器的性能,发现尽管没有一种方法是普遍最好的,但是Naive Bayes和支持向量机分类器在输入缺失值方面表现得特别好。


机器学习:旧问题的新答案


虽然许多ML工具对社会学来说是很新的,但它们解决的问题并不是。下面,我们将讨论ML如何解决我们领域中一些长期存在的问题,并为未来的研究指明有希望的方向。


1.有监督的机器学习帮助我们脱离一般的线性现实

在数量社会学中,我们通常遵循经典的统计方法:假设数据的分布,选择一些输入,并指定一个参数(通常是线性)模型来将输入与输出联系起来(Breiman, 2001)。我们考虑了一些替代规范(例如,逐步引入控制的嵌套模型),但没有用尽所有可能(Varian ,2014),也没有充分考虑模型的不确定性(Young, 2009)。


2.机器学习允许我们研究种群异质性

定量社会学通常采用演绎的方法,研究者从一个理论中得出假设来检验数据。这种方法受到经典物理学的启发,可以起到限制我们提出问题和使用方法的作用(Lieberson&Lynn,2002)。为了使我们的工作符合假设检验的模式,我们将社会理论扁平化为几个变量,并估计每个变量在特定人群中的平均效应。我们忽略了不同的机制可能同时起作用的可能性。我们排除了先验解释中的异质性。


3.机器学习为探索和发现提供了工具

在数量社会学中,我们主要从事探索性的工作,而把它寄托在假设检验的语言中。我们经常使用灵活的研究设计和统计模型,直到我们学到了一些新的有趣的东西,但呈现我们的结果,就好像我们确认了一个我们一直都知道的假设。我们给读者的是论证的语境,而不是发现的语境。这种做法使我们很难教学生研究设计或鼓励创造性理论。


结论


在社会学中,我们主要依靠假设检验框架和经典的统计方法。我们通常将问题与此设置相匹配,并使用数据来估计某些输入对输出的影响。ML不仅帮助我们改进了这一策略的某些部分,而且还为我们提供了可以激发新问题的工具。事实上,在一些最好的社会科学应用中,ML的结果并不是最终目标,而是进一步分析和概念化的起点。因此,ML工具是对社会学中现有方法的补充,但不是替代。


-----
-----

文献来源:


Mario Molina, Filiz Garip (2017).Machine Learning for Sociology.Annual Review of Sociology.45:27-39.


文献整理:买提



【社论前沿招募】点击这里,加入我们!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/41173
 
412 次点击