Py学习  »  Python

2021 寒假Python&Stata数据挖掘与实证工作坊

唧唧堂 • 3 年前 • 344 次点击  

课程概览


· 授课内容:

邓旭东:python 语法入门、网络爬虫(数据采集)、文本数据清洗与分析、机器学习等


江艇:因果推断导论、截面数据的参数与非参数方法、面板数据、双重差分及其与匹配的结合


王非:文献阅读及理论建构;数据清洗与数据描述;工具变量法;断点回归、合成控制及方法进展


司继春: 线性回归基础;线性面板数据模型;面板数据与因果推断:双重差分模型及其扩展;面板二元选择模型


· 时间:2021年1月25-26日(邓旭东Python)

            2021年1月27-28日(江艇Stata)

            2021年1月29-30日(王非Stata)

            2021年1月31日-2月1日(司继春Stata)


· 地点:小鹅通APP(线上直播)


工作坊简介


为推动我国经济、统计等社会科学量化研究方法学习与应用,培养和训练社会科学相关领域的青年学者、硕博士研究生,促进社会科学相关领域研究方法科学化规范化,《python数据挖掘与stata应用能力提升与实证前沿寒假工作坊》提供一个高水平的学术交流、研究方法普及与研究经验分享的学术平台。工作坊采用模块式教学方法,不仅侧重经济、统计等社会科学量化基本方法的介绍,而且更加注重研究设计与研究选题训练,注重理论与实践相结合,培养学员的社会科学量化分析研究的综合能力。

计算机的迅速发展,更加促进了以数据分析见长的计量经济学的发展。比如Stata软件功能日益强大,并不断开发新程序,以将最常用、最流行、最新计量方法推广应用,大幅提高数据分析效果大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络数据进行研究,面临两大难点-数据获取与文本分析。数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。

前沿分析固然可能会给你的Paper加分,但不理解其假设,也不知道如何检验假设?在假设得不到满足时也不知道如何用更高级方法去控制?那么会导致前沿方法的滥用!会使你的研究大为失色!为此,本工作坊邀请四位走在微观计量前沿和爬虫文本分析的学者,可谓更强联手的重磅组合,为青年教师、研究生们集中讲解前沿模型的基本思想、基于Stata和Python实操估计。在21世纪的第3个十年即将来临之际,我们与致力于科学探索的您分享更新的、最前沿的知识与技巧!我们努力给您带来最前沿计量理论与扎实操作基础并重的高质量课程!



主讲嘉宾简介


江艇:香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文。曾应邀在多所高校讲授“应用微观计量经济学”短期前沿课程,学员反响热烈。

王非美国南加州大学经济学博士,中国人民大学劳动人事学院副教授,“杰出学者”青年学者,人大国家发展与战略研究院研究员,全球劳动组织(GLO)会员,中国就业研究所研究员。主持国家自然科学基金青年科学基金项目。主要研究领域为劳动经济学、人口经济学、主观福祉等,在 PNAS,Journal of Happiness Studies,Journal of Population Economics,China Economic Review,《人口研究》等国内外权威期刊上发表多篇论文。曾多次讲授微观实证研究方法,广受好评,《Stata简明讲义》作者。

司继春(慧航):上海对外经贸大学统计与信息学院助理教授,主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实,大家更熟悉的是知乎上大名鼎鼎的[慧航],拥有 219,753 个关注者,获得过 110,578 次赞同,他就是司继春老师 —— [慧航]。


邓旭东(大邓):哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学分享数据采集和文本分析,运营【公众号:大邓和他的Python】主要分享Python、爬虫、文本分析、机器学习等相关内容。




课程安排


1月25日上午

主讲人:邓旭东

课程安排:python 语法入门

1、Python跟英语一样是一种语言

2、数据类型之字符串

3、 数据类型之列表元组集合

4、 数据类型之字典

5、数据类型之布尔值、None

6、逻辑语句(if&for&tryexcept)

7、列表推导式

8、理解函数

9、 常用的内置函数

10、文件路径库os库

11、数据清洗re库

12、数据存储csv库

13、初学python常出错误汇总

 

1月25日下午

主讲人:邓旭东

课程安排:数据采集

1、网络爬虫原理

2、发现网址规律

3、 网络访问requests库

4、网页解析pyquery库

5、实战:大众点评

6、如何解析json数据

7、实战: 知乎

8、实战: 微博

9、实战: 批量下载多媒体文件

10、实战: 批量下载上市公司定期报告pdf

11、实战: 各种宏观经济、金融、政治数据下载

12、爬虫知识点总结

 

1月26日上午

主讲人:邓旭东

课程安排:文本处理入门

1、文本分析概述

2、读取文件中数据(pdf、docx、txt、excel)

3、中文分词及数据清洗

4、实战: 词频统计(词云图制作)

5、实战: 中文情感分析(词典法)

6、实战: 将多文件数据汇总到一个excel

7、 数据分析pandas库快速入门

8、实战: 对excel中的文本进行情感分析

9、从pdf中提取表格数据

10、共现法扩展情感词典(领域词典)

11、从非结构化文本数据中提取结构化数据(文本数据清洗re库)

 

1月26日下午

主讲人:邓旭东

课程安排:文本分析进阶

1、了解机器学习

2、使用机器学习做文本分析的流程

3、scikit-learn机器学习库简介

4、文本特征抽取(特征工程)

5、 实战:在线评论情感分析(机器学习法)

6、文本相似性(cos/编辑距离/jaccard)

7、实战: 使用文本相似性自动识别冲击(改变的)时间点

8、Kmeans聚类算法

9、LDA话题模型

10、文本分析在经管研究中的应用

11、补充: 如何在R语言中调用Python的代码


 

1月27日上午

主讲人:江艇

课程安排:因果推断导论

1、如何理解因果“识别”

2、随机实验:因果推断的参照系

3、观测性数据研究的根本挑战

4、回归模型与结构模型的区别

5、潜在结果模型

6、分配机制与识别假设

7、线性结构模型与潜在结果模型的关系


1月27日下午、1月28日上午

主讲人:江艇

课程安排:截面数据的参数和非参数方法

1、截面数据的非参数方法:匹配

2、截面数据的参数方法:控制回归

3、参数方法与非参数方法的比较

4、匹配方法的操作细节

5、控制变量与固定效应

6、系数稳定性理论:如何在回归中逃避控制

7、交互项模型与因果关系的作用机制

8、因果关系的作用渠道


1月28日下午

主讲人:江艇

课程安排:面板数据、双重差分及其与匹配的结合

1、面板数据固定效应模型的本质

2、双重差分方法的识别假设探究

3、几种主要的双重差分模型

4、双重差分模型的稳健性检验

5、双重差分与匹配的几种结合方式

6、面板数据的匹配操作细节


1月29日上午

主讲人:王非

课程安排:起点:文献阅读及理论建构

1、如何搜集研究所需的文献

2、如何快速有效阅读和整理文献

3、文献综述怎么写

4、如何借助简单理论深化经验研究:从回归模型搭建到经验研究“三件套”

 

1月29日下午

主讲人:王非

课程安排:基础:数据清洗与数据描述

1、公式化数据清洗,使纷繁庞杂的数据处理变得异常清晰

2、经验研究的拨乱反正:数据描述不只是一张表

3、常用数据清洗与描述的实战演示

 

1月30日上午

主讲人:王非

课程安排:进阶:工具变量法

1、工具变量法为什么是因果推断根本大法:工具变量法与其他“方法”的关系

2、工具变量经典方法与步骤系统化梳理

3、寻找工具变量的一般方法

4、应对弱工具变量的一般流程

5、工具变量经典论文的结果复制

 

1月30日下午

主讲人:王非

课程安排:拓展:断点回归、合成控制及方法进展

1、断点回归经典设计思路与实践步骤系统化梳理

2、断点回归前沿论文的结果复制

3、合成控制经典步骤及最新发展的系统化梳理

4、合成控制前沿论文的结果复制

5、因果推断方法最新发展介绍及演示




1月31日上午

主讲人:司继春

课程安排:线性回归基础

1、外生性与自然实验介绍

2、线性回归模型基础

3、系数的解释与模型设定:平方项、交叉项的解读与使用

4、系数的解释与模型设定:加权最小二乘以及权重的使用

5、线性回归中固定效应的使用

6、控制变量的选择

7、统计推断:异方差稳健标准误与聚类标准误

8、多方程回归及其假设检验

 

1月31日下午

主讲人:司继春

课程安排:线性面板数据模型

1、面板数据的基本设定

2、随机效应模型与混合最小二乘

3、一阶差分模型与固定效应模型

4、不同估计量之间的关系和选择

5、线性面板数据中的时间固定效应与时间趋势

6、交互固定效应模型


2月1日上午

主讲人:司继春

课程安排:面板数据与因果推断:双重差分模型及其扩展

1、双重差分模型的基本设定及共同趋势假设

2、双重差分模型的标准设定

3、多期的双重差分模型设定

4、平行趋势检验的方法

5、三重差分模型、回归控制法简介

6、模糊双重差分模型(Fuzzy DID)

7、异质性处理效应下的双向固定效应估计量(Chaisemartin and D’Haultfoeuille, 2020)

 

2月1日下午

主讲人:司继春

课程安排:面板二元选择模型

1、基本的Probit、Logit回归简介

2、二元选择模型中系数的解释和汇报

3、随机效应Probit、Logit回归

4、固定效应Probit、Logit回归


课程概览


· 时间:2021年1月25-26日(邓旭东Python)

            2021年1月27-28日(江艇Stata)

            2021年1月29-30日(王非Stata)

            2021年1月31日-2月1日(司继春Stata)


· 地点:小鹅通APP(线上直播)


· 授课方式:

·Python3.7.5、stata 14及以上

· 每天6小时(8:30—11:30;14;00—17:00)+30分钟答疑


· 价格:

   2000/门(老师)

   

· 优惠政策:

   报名两位老师的课程9折;三位老师的课程8折;四位老师的课程7.5折;三人成团及以上九折;五人成团及以上八折;老学员九折;学生优惠200元/人;各类叠加不超过7.5折。

  (注:为扩大学员们的选择空间,可单独选择报名一位老师或几位老师的课程,也可组团报名)




报名信息

参加对象

全国高等院校及研究机构从事经济科学研究的青年师生。尤其适合那些希望掌握高级实证方法,提升量化研究设计能力和国家课题申报能力的研究者。

报名时间

 从即日起

报名咨询

19817128496(同微信)(任老师)

缴费信息

单位:杭州国商智库信息技术服务有限公司

开户银行: 中国银行杭州大学城支行

银行账户:6232636200100260588



欢迎进群咨询


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/106563
 
344 次点击