Py学习  »  机器学习算法

如何建立更好的模型:机器学习的社科应用  | 社论前沿

社论前沿 • 4 年前 • 276 次点击  

编者按:本文概述了几种适合社会科学问题的机器学习方法,包括决策树奇异值分解、最近邻算法支持向量机模型和惩罚回归。主张运用多算法的集成学习和基于惩罚的Lasso回归方法得到精确有效且简洁的模型。


这是社论前沿第S1287期推送

微信号:shelunqianyan

01
引  言


社会科学处于“大数据革命”的边缘,这里数据集的“大”,不仅在于它们样本规模的大小,同时体现在复杂性、种类及其积累速度。针对大数据问题涉及许多不同的标签,如机器学习、数据挖掘、统计学习、应用数学、数据科学等(本文主要使用术语“机器学习”)。无论使用哪种标签,这些新技术都可以让社会科学家更好地量化不确定性并做出准确的预测。


定量社会科学一直致力于建立和检验统计模型。在决定哪种模型提供最佳解释时,两个指标是非常重要的。首先,模型应该能达到很好预测效果。第二,应该以简约为目标,试图建立更加简单的模型。


线性回归模型(如OLS, Logit等)是社会科学家普遍适用的模型之一,但线性回归存在很多问题,如预测效果不佳,难以体现多个变量之间复杂的相互作用。机器学习方法现在为我们提供了更好的选择。


02
几种机器学习方法


作者在文中介绍了几种基础的机器学习模型。


分类和回归树(CART

决策树的结果以流程图的形式表现,可以提供离散值(分类)或连续值(回归,其中每个叶节点中的情况被分配组平均值)。当存在强大的非线性或相互作用时,基于树的模型通常优于诸如回归模型的替代方案。

基于树模型的一个问题是,与回归一样,它们可能会受到一些极端观测样本的严重影响。根据可用的预测变量,CART模型强烈依赖路径。随机森林模型通过创建不同树的集合,对观测样本和预测器进行采样,根据混合结果来解决这些问题。


降维 /奇异值分解(SVD

降维模型,如主成分分析(PCA),在社会科学领域有着悠久的历史,特别是对于探索性数据分析。但是,最近的一些表明它们也是预测的有力工具。

SVD观测变量建模为(较小的)不可观测的新变量集的总和。结果是一组新的推断因子,按重要性排序。通过将可观测协变量放置在变换的特征空间中,从而预测Y的缺失值。与过去的方法相反,新的SVD算法即使在大量缺失数据的情况下也能表现良好(Paterek 2007)。


最近邻KNN

最近邻方法(通常称为K-最近邻或KNN模型)是最简单的学习方法之一,但对一些复杂模型难以处理的情况,这种方法仍然可以表现良好。最近邻算法为每个观测值分配与之接近观测值的平均值。KNN模型擅长捕获高级学习方法遗漏的数据中的局部结构。因此,它们通常是对复杂模型强有力补充。


支持向量机(SVM

SVM算法寻找一个超平面,以尽可能清晰地分离不同类别的样本,最大化边界距离。支持向量模型是最通用的学习方法之一:它们在高度分散的样本分类上表现良好,例如从手写识别到医学诊断。然而,到目前为止,这种方法在社会科学领域被广泛忽视。


03
集成学习


在不同的预测数据集中,甚至在相同数据集中,它们的性能通常会有很大的差异。那么,哪种算法是最好的?这是一个棘手的问题。计算机科学的角度来看,结合多种不同模型和算法的集成方法表现会更优。集方法的成功说明了机器学习文献中最成熟的发现之一:预测有利于多样性。这给更大、更多样化的数据集带来了较好预测结果。通常在这类模型中包含同一基础变量的多个转换,并存在多个变量的潜在交互。


使用集成方法不仅考虑了回归参数的不确定性,而且考虑了模型和数据生成过程本身的不确定性。因此,关于理论模型建立的缺陷至少同样适用于社会科学的当前实践。理论驱动的定量研究很多只是假设两个变量之间的方向关系。这是一种非常浅薄的“理论”。与社会科学回归分析相比,机器学习实践通常更多地关注数据生成过程。


另一个常见但被误导的论点是机器学习方法总会不可避免地过度拟合。这种误解部分源于对统计学习方法的具体优势和脆弱性的忽视。实际上,过度拟合在机器学习文献中比在社会科学中受到更多的关注。基于到过度拟合问题,作者介绍了以下基于惩罚的回归模型,主要目的是构建更加简约的模型。


04
基于惩罚的线性回归


LASSO(套索,Least absolute shrinkage and selection operator),是过去二十年中最流行的统计创新之一 尽管迄今为止在社会科学中很少使用。它通过构造一个惩罚函数,即强制系数绝对值之和小于某个固定值,得到一个较为精炼的模型,使得它压缩一些回归系数,最终得到一些回归系数为零的估计结果。该模型的解由参数lambda约束,随着lambda的减少,将产生越来越多的非零系数lambda变为零,得到无约束OLS回归结果



与之相比,传统回归存在两个重要缺陷。第一个是不能生成简约模型。模型中包含的任何变量都将产生非零系数。研究人员通常会生成具有一系列基于不同变量和模型估计结果,试图证明其结果是稳健的。缺乏简约性是许多大数据背景下的一个严重问题,这一事实刺激了可行的替代方案的推动。预测变量的数量超过观测数量的数据集越来越普遍,在这些情况下,变量选择是必不可少的尤其是在大量交互项的情况下


OLS回归的第二个问题是,与其他线性模型相比,预测效果较差。预测准确性的差异可能很大。OLS假定,至少在假设的“完整”模型中,其包括所有相关的解释变量。这种假设在实践中几乎不能得到满足,没有社会科学数据集包含每个可能的变量。


另一个值得关注的问题是,如何进行社会科学的假设检验?Lasso的初始公式没有为变量系数的显著性检验提供有效的误差界限,这也是是使用Lasso作为OLS的替代品的最大障碍。令人庆幸的是,这一问题的研究已经取得了重大进展。一种策略是将Lasso结果解释为贝叶斯后验模式(Park&Casella,2008;Kyung et.al,2010这种基于贝叶斯方法的Lasso估计产生类似OLS的结果,同时提供有效的置信区间。Lockhart等人(2014)最近的研究结果同样也是一项重大进步,在求解时可以计算某个变量进入Lasso解的p值,而不是假设所有变量已经在模型中

本文认为,社会科学家现在使用回归的大多数领域,应该建立两种不同类型的模型,并相互协调使用它们。首先,应使用多算法的集成达到更精确的预测。其次,在构建简化模型时,社会科学家应该避免使用标准的OLSlogit模型,而应使用套索算法(Lasso)等惩罚性回归技术,得到更简洁的模型。




文献来源:Matthew Hindman. (2015). Building better models: prediction, replication, and machine learning in the social sciences. The ANNALS of the American Academy of Political and Social Science, 659(1), 48-62.

文献整理:杨博文


【社论前沿小编招募】点击这里,加入我们!

                    


社论前沿

关注国际顶级刊物
聚焦前沿理论方法
追踪名家研究轨迹
推送最新学术论文
微信号:shelunqianyan
社论译介作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载请申请授权,联系邮箱shelun2015@163.com,注明“机构名称+转载”。
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/33195
 
276 次点击