社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

Stata学习:如何构建备择常数条件Logit模型?

Stata与R学习 • 1 年前 • 210 次点击  

文献来源

Jacksohn等(2019)设定了备择常数条件Logit模型(Alternative-specific conditional logit (McFadden's choice) model),考虑了实际家庭对光伏系统(PV)和太阳能热系统(ST)的投资决策。

在任何时期 t ,一个家庭 h 面临 j = 1,2,3,4 种不同的选择选择:

  • 无投资(No solar)
  • 只投资PV,但不投资ST(PV)
  • 只投资ST,但不投资PV(ST)
  • 同时投资PV和ST系统(Both)

t 时期之前既不投资光伏也不投资ST系统的家庭,在 t+1 时期再次面临所有四种选择。如果一个家庭决定投资其中一个或两个太阳能系统,直到周期 t ,假设将来不会再进行此类投资。

作者依靠随机效用框架来捕捉家庭在四种选择中的选择。设时期 t 的家庭 h 构成情况 i ,设 u_j 为情况 i 从方案 j 得到的效用。在每个时期,家庭都选择效用最大化的方案。效用包括:

  • 可观察到的(确定性的)部分 V_{ij}
  • 不可观察到的(随机的)部分 ε_{ij}
U_{ij}=V_{ij}+\varepsilon_{ij}

假设给定选择方案的效用是上述四个变量集的函数:投资的预期成本和收益(包括公共补贴),环境关注和人格特征,社会人口和住房特征,以及进一步的控制变量。将确定性效用(deterministic utility)指定为:

  • a_j 是特定选择常数(ASC,alternative-specific constant)
  • x_{il} 表示 l 个特定情况的变量
    • 社会人口和住房特征,环境问题和个人特征,以及进一步的控制变量
    • 这些变量在情况 I 中有所不同,但在四个选择中是恒定的
  • w_{ijm} 包含 m 个变量,这些变量随情况 i 和备选方案 j 而变化
    • 例如,在特定年份,一个家庭与光伏系统相关的投资成本和预期收入

为了比较变量的效应大小,作者通过减去各自的平均值并除以各自的标准差来标准化每个解释变量。

假设效用 ε_{ij} 的未观察(随机)部分遵循极值分布,使得情况 i 的选择概率 P_{ij} 对于四种选择 j = 1,2,3,4 中的一种是logit形式(Train,2009)。

使用选项特定条件logit模型(McFadden的选择模型)来估计上式,这是跨越(互斥)选项建模决策的标准方法(McFadden,1974;Cameron and Trivedi,2005)。

McFadden的选择模型将所有的观察视为独立的实现。然而,随着时间的推移,作者的数据呈现出特定的相关结构。如上所述,一个特定的家庭 h 可能会在数据集中重复出现,构成几个案例 i 。因此,效用 ε_{ij} 的未观察到的随机部分将在这些案例 i 之间相关。不考虑这种相关性将产生误导性的标准误差。因此,为了捕获相关结构,作者计算了聚类稳健标准误。

  1. Cameron, A.C., & Trivedi, P. K. (2005). Microeconometrics – Methods and Applications. Cambridge University Press, New York.
  2. Jacksohn, A., et al. (2019). Drivers of renewable technology adoption in the household sector
    1. Appendix C. Supplementary material【Stata】
  3. McFadden, D.L. (1974). Conditional logit analysis of qualitative choice behaviour. P. Zarembka (Ed.), Frontiers in Econometrics, Academic Press, New York, pp. 105-142.
  4. Train, K.E. (2009). Discrete Choice Methods with Simulations. (second ed.), Cambridge University Press, Cambridge.

示例代码

为了检验不同解释变量集的解释能力,作者估计了确定性效用方程的三个不同模式:

  • 模型1:包括了所有三组解释变量
  • 模型2:排除了与环境关注和人格特质相关的一组变量
  • 模型3:排除了社会人口和住房变量集

三种模型均包含可再生能源强制使用的虚拟模型和时间趋势。

* 模型1
asclogit choice s_cost s_rev, alt(index) case(hhnr_year) 
casevars(s_worried_env2 s_zbd_trait* s_age s_female  s_edu1 s_edu2 
s_ln_eq_income_w s_adults s_children s_house s_rural s_obligation s_year) 
cluster(hhnrakt);
estimates store model1;
estat alternatives; 

* 模型2
asclogit choice s_cost s_rev, alt(index) case(hhnr_year) 
casevars(s_age s_female  s_edu1 s_edu2 s_ln_eq_income_w s_adults 
s_children s_house s_rural s_obligation s_year) cluster(hhnrakt);
estimates store model2;

* 模型3
asclogit choice s_cost s_rev, alt(index) case(hhnr_year) 
casevars(s_obligation s_year) cluster(hhnrakt);
estimates store model3;

esttab model1, mtitles


    
("1") unstack b(3) se(3) brackets 
star(* 0.10 ** 0.05 *** 0.01) aic bic compress;
esttab model2, mtitles("2") unstack b(3) se(3) brackets 
star(* 0.10 ** 0.05 *** 0.01) aic bic compress;
esttab model3, mtitles("3") unstack b(3) se(3) brackets 
star(* 0.10 ** 0.05 *** 0.01) aic bic compress;

期刊排版

在所有三个模型中,“No solar”构成了用于标准化确定性效用位置的参考类别。各自的系数衡量对确定性效用的平均影响,括号中显示了聚类鲁棒性标准误差。还报告了各自模型的观测数、Wald统计量、对数伪似然、赤池信息准则(AIC)和施瓦茨贝叶斯信息准则(BIC)。

注意,报告的系数测量了各自变量对确定性效用 V_{ij} 的影响,而确定性效用由于logit函数的形状以单调但非线性的方式积极影响选择概率 P_{ij} 。因为重点是评估一个家庭对PV或ST系统的投资决策是否受到特定因素的指导,所以检查相应因素的系数的符号和显著性就足够了。然而,由于所有变量都是标准化的,因此各自对确定性效用的影响程度在变量之间是可比较的。

模型1的结果揭示了经济因素的影响。成本和收入非常重要,并且在所有包括的解释变量中具有迄今为止最大的系数(按绝对值),因此对家庭投资决策的影响最大。根据标准经济学理论,选择某一投资方案 j 的概率随其收益而增加,随其成本而减少。系数的大小表明,成本对投资决策的影响比收入大得多。这是合理的,因为投资成本在时间 t 是一个家庭的安全支出,而各自的收入则不确定得多,因为它们依赖于太阳辐射和能源价格。

相反,环境偏好和人格特征的解释力很小。环境关注和尽责性仅对PV投资具有弱显著性。环境问题对选择PV的可能性有微弱的显著的积极影响,而尽责性对相同的可能性有微弱的消极影响。与经济因素相比,这些系数很小,这意味着尽管它们很重要,但它们对投资决策的重要性不大。

考虑到社会人口和住房特征,证据是混合的:大多数这些变量对光伏系统的选择概率有显著影响,但对ST系统的选择概率影响很小。

  • 对于PV系统,选择概率随户主年龄或户主为女性而减小;受过中等教育的人(与受过高等教育的人相比)也更高。此外,选择概率随着家庭收入和子女数量的增加而增加。最后,住在房子里而不是公寓里或住在农村地区也会对选择概率产生积极影响。
  • 对于ST系统,户主的两种社会人口特征都不会产生显著影响。然而,选择的可能性随着同等收入和家庭中成年人的数量而增加。住在房子里比住在公寓里对选择概率有积极的影响。

很难确定社会人口和住房特征对各自选择概率影响差异背后的机制。然而,至少部分原因可能是采用ST系统的决定比采用PV系统的决定受到更大的约束。虽然发现,居住在新建筑中的家庭,根据法律有义务使用可再生能源,更有可能投资于任何一种系统,但在ST的情况下,效果最为明显。同样,不受法律义务约束的家庭可能不会投资于ST系统,直到他们必须更换现有的供暖系统。相比之下,采用PV系统的决定可以更自由地做出,因此更依赖于社会人口特征。例如,随着家庭中子女数量的增加,PV系统的选择概率会增加,这可能是因为父母希望给孩子留下更好的环境,或者希望成为一个好的榜样。

模型2包含与模型1相同的一组变量,除了环境关注和人格特征。事实证明,这种排除几乎没有任何影响;对剩余变量的大小和符号以及显著性水平都没有影响。模型1和模型2中两个经济因素的回归系数大小相似,且高度显著。模型3也是如此,其中社会人口和住房特征也被排除在外。的确,沃尔德检验不能拒绝三个模型的成本和收入系数相等的零假设。

综上所述,模型1至3表明,虽然社会人口和住房特征解释了部分投资决策,但主要是投资成本和收入。环境关注和人格特质的作用可以忽略不计。尽管如此,对数伪似然估计表明模型1在拟合方面优于模型2和3。然而,从模型1切换到更简洁的模型2和3是否会导致解释力的实质性损失?通过AIC和BIC两个信息标准的结果,模型2和模型3的AIC和BIC值较小,表明排除环境关注和个人特征并不会造成严重的解释力损失。模型2在AIC方面表现最好,它根据简约的规范衡量模型拟合,而模型3在BIC方面表现最好,但更严格地惩罚模型复杂性。

(完)

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/163248
 
210 次点击