预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

admin

145983
文章

119
评论

2020年9月21日15:11:57评论192 views字数 4156阅读13分51秒阅读模式

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

培训大纲

开班时间

10月1-2日 (模块Ⅰ：Python数据挖掘）

10月3-8日 (模块Ⅱ：Stata 应用能力提升与实证前沿)

地点：小鹅通app（线上直播）

费用：

模块Ⅰ (Python) 2000元/人

模块Ⅱ (Stata) 5500元/人

模块I：

邓旭东：python 语法入门、数据采集、文本处理入门、文本分析进阶

模块II：

江艇：因果推断导论、截面数据因果推断的参数和非参数方法（上）、截面数据因果推断的参数和非参数方法（下）、面板数据因果推断的参数和非参数方法；

司继春：Stata基础与Stata16新功能、OLS：预测与解释、面板数据与动态面板模型、离散选择模型与非线性模型选讲；

王非：数据清洗与描述、工具变量、断点回归、合成控制及最新实证方法补充

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

工作坊介绍

为推动我国经济、统计等社会科学量化研究方法学习与应用，培养和训练社会科学相关领域的青年学者、硕博士研究生，促进社会科学相关领域研究方法科学化规范化，《python数据挖掘与stata应用能力提升与实证前沿国庆工作坊》提供一个高水平的学术交流、研究方法普及与研究经验分享的学术平台。工作坊采用模块式教学方法，不仅侧重经济、统计等社会科学量化基本方法的介绍，而且更加注重研究设计与研究选题训练，注重理论与实践相结合，培养学员的社会科学量化分析研究的综合能力。

计算机的迅速发展，更加促进了以数据分析见长的计量经济学的发展。比如Stata软件功能日益强大，并不断开发新程序，以将最常用、最流行、最新计量方法推广应用，大幅提高数据分析效果。大数据时代到来，网络数据正成为潜在宝藏，大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络数据进行研究，面临两大难点-数据获取与文本分析。数据获取需要借助Python编程语言设计网络爬虫，而获得的数据中有相当比例数据是非结构化数据，这就需要文本数据分析技术。

前沿分析固然可能会给你的Paper加分，但不理解其假设，也不知道如何检验假设？在假设得不到满足时也不知道如何用更高级方法去控制？那么会导致前沿方法的滥用！会使你的研究大为失色！为此，本工作坊邀请四位走在微观计量前沿和爬虫文本分析的学者，可谓更强联手的重磅组合，为青年教师、研究生们集中讲解前沿模型的基本思想、基于Stata和Python实操估计，给您带来最前沿计量理论与扎实操作基础并重的高质量课程！

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

主讲嘉宾介绍

江艇(中国人民大学)、王非(中国人民大学)、司继春(上海对外经贸大学)、邓旭东(哈尔滨工业大学)、刘文阁(课程总策划)、谢杰(课程总协调)

江艇：香港科技大学商学院经济学博士，中国人民大学经济学院副教授，人大国家发展与战略研究院研究员，人大微观数据与实证方法研究中心副主任，美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学，在Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文。曾应邀在多所高校讲授“应用微观计量经济学”短期前沿课程，学员反响热烈。

王非：美国南加州大学经济学博士，中国人民大学劳动人事学院副教授，人大国家发展与战略研究院研究员，全球劳动组织（GLO）会员，中国就业研究所副研究员。主持国家自然科学基金青年科学基金项目。主要研究领域为劳动经济学、人口经济学、主观福祉等，在 PNAS，Journal of Happiness Studies，Journal of Population Economics，China Economic Review，《人口研究》等国内外权威期刊上发表多篇论文。曾多次讲授微观实证研究方法，广受好评，《Stata简明讲义》作者。

司继春（慧航）：上海对外经贸大学统计与信息学院助理教授，主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实，大家更熟悉的是知乎上大名鼎鼎的[慧航]，拥有 219,753 个关注者，获得过 110,578 次赞同，他就是司继春老师 —— [慧航]。

邓旭东：哈尔滨工业大学管理学院信息系统方向在读博士，运营【公众号: 大邓和他的Python】，主要分享Python、网络爬虫、文本挖掘、机器学习等相关内容

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

模块1 Python数据采集&文本数据分析

Day 1 上午邓旭东

Python语法入门

1. Python跟英语⼀样是⼀⻔语⾔

2. 数据类型之字符串

3. 数据类型之列表元组集合

4. 数据类型之字典

5. 数据类型之布尔值、None

6. 逻辑语句(if&for&tryexcept)

7. 列表推导式

8. 理解函数

9. 常⽤的内置函数

10. 路径库pathlib库

11. ⽂本数据清洗re库

12. 初学python常出错误汇总

Day 1 下午邓旭东

Python网络爬虫

1. ⽹络爬⾍原理

2. 发现⽹址规律

3. ⽹络访问requests库

4. ⽹⻚解析pyquery库

5. 数据存储csv库

6. 实战：⼤众点评

7. 实战：⾖瓣读书

8. 如何解析json数据

9. 实战: 京东商城

10. 如何⽤爬⾍下载⽂档及多媒体⽂件

11. 上市公司定期报告pdf批量下载

12. 爬⾍知识点总结

Day 2 上午邓旭东

文本分析入门

1. ⽂本分析概述

2. 读取⽂件中数据(pdf、docx、txt、excel)

3. 中⽂分词及数据清洗

4. 实战: 词频统计(词云图制作)

5. 实战: 中⽂情感分析(词典法)

6. 实战: 将多⽂件数据汇总到⼀个excel

7. 数据分析pandas库快速⼊⻔

8. 实战: 对excel中的⽂本进⾏情感分析

9. 共现法扩展情感词典(领域词典)

10. ⽂本处理练习(pandas)

Day 2 下午邓旭东

文本分析进阶

1. 了解机器学习

2. 使⽤机器学习做⽂本分析的流程

3. scikit-learn机器学习库简介

4. ⽂本特征抽取(特征⼯程)

5. 实战：在线评论情感分析(机器学习法)

6. ⽂本相似性(cos/编辑距离/jaccard)

7. 实战: 使⽤⽂本相似性⾃动识别冲击(改变的)时间点

8. Kmeans聚类算法

9. LDA话题模型

10. ⽂本分析在经管研究中的应⽤

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

模块2 Stata 应用能力提升与实证前沿

Day 1 上午江艇

因果推断导论

1、何为因果推断？

2、传统因果模型

3、实验数据与观测数据

4、观测数据研究的基本挑战

5、潜在因果模型

6、分配机制与识别假设

7、潜在因果模型与传统因果模型的关系

Day 1 下午江艇

截面数据因果推断的参数和非参数方法（上）

1、非参数方法的工作原理

2、参数方法的工作原理

3、插曲之一：线性回归中的控制变量

4、插曲之二：交互项模型

Day 2 上午江艇

截面数据因果推断的参数和非参数方法（下）

1、参数方法与非参数方法的比较

2、匹配方法实操

3、（选讲）逆概率加权与双重稳健估计

4、（选讲）条件平均处理效应

Day 2 下午江艇

面板数据因果推断的参数和非参数方法

1、面板数据固定效应模型

2、双重差分法的识别和估计

3、双重差分法常见问题剖析

4、双重差分与匹配的结合

5、（选讲）半参数双重差分估计

6、非参数方法初步及其与参数方法的区别和联系

7、（选讲）模糊双重差分

Day 3 上午司继春(慧航)

Stata基础与Stata16新功能

1、 Stata基础：基本操作与数据操作、数据框操作

2、Stata基础：分类变量与数值变量的描述性分析

3、Stata进阶：宏

4、Stata进阶：条件与循环

5、Stata进阶：Stata与Python的结合

Day 3 下午司继春(慧航)

OLS：预测与解释

1、如何估计条件期望：OLS

2、预测：过拟合、欠拟合与交叉验证

3、预测：使用LASSO回归进行变量选择

4、HCW方法的LASSO方法实例

5、作为因果推断的OLS：控制变量与固定效应

6、作为因果推断的OLS：系数的解释

7、作为因果推断的OLS：异方差稳健标准误与聚类标准误

Day 4 上午司继春(慧航)

面板数据与动态面板模型

1. 面板数据：固定效应与随机效应

2. 面板数据：交互固定效应

3. 工具变量简介

4. 动态面板模型的实现：差分GMM与系统GMM

5. 动态面板应用举例

Day 4 下午司继春(慧航)

离散选择模型与非线性模型选讲

1. 分位数回归

2. 离散选择模型：Probit、Logit回归

3. 计量经济学中的离散选择模型：理论基础与解释

4. 多元选择模型：多项Logistics回归

5. 面板数据二元选择模型

6. 多元选择模型：分类树、随机森林及其Stata实现

7. 其他非线性模型：删失样本模型（Tobit模型）、样本选择模型（Heckman两步法）简介

Day 5 上午王非

数据清洗与描述

1.数据清洗与描述的公式化梳理，使纷繁庞杂的数据处理变得异常清晰

2.最新常用数据清洗与描述的实战演示，使数据处理不再成为研究负担

Day 5 下午王非

工具变量

1. 工具变量经典方法与步骤系统化梳理

2. 工具变量发展前沿及实际应用

3. 工具变量最新前沿论文的结果复制

Day 6 上午王非

断点回归

1. 断点回归经典设计思路与实践步骤系统化梳理

2. 断点回归发展前沿及实际应用

3.断点回归最新前沿论文的结果复制

Day 6 下午王非

合成控制及最新实证方法补充

1.合成控制经典步骤及最新发展的系统化梳理

2.合成控制最新前沿论文的结果复制

3. 因果识别方法最新发展的补充介绍

4. 跟随前沿论文学习实证研究的核心模块分析

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

报名信息

授课方式

小鹅通App(线上直播)

每天6小时(8:30-11:30; 14:00-17:00) +30分钟答疑

培训费用

模块I（Python)：2000元/人

模块II ( Stata ): 5500元/人

优惠政策：两个模块一起报名九折；三人及以上九折；五人及以上八折；老学员九折；学生优惠200元/人；各类叠加不超过7.5折。

报名咨询

参加对象

全国高等院校及研究机构从事经济科学研究的青年师生。尤其适合那些希望掌握高级实证方法，提升量化研究设计能力和国家课题申报能力的研究者。

报名时间

从即日起

报名咨询

19817128496（任老师）

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

欢迎进群咨询

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

《个人信息去标识化指南》

逃离“告知-同意”：《个人信息去标识化指南》笔记

真正的自主可控，零信任是关键？

企业数据资产入表报告

一图读懂《国家安全法》

国家标准 | 《网络安全技术生成式人工智能服务安全基本要求》

图解《国家安全法》

一图读懂 | 《2025年护航新型工业化网络安全专项行动方案》

中小企业上云安全十条倡议发布与解读！

一图读懂 | 国家标准GB/T 45654—2025《网络安全技术生成式人工智能服务安全基本要求》

发表评论

在线咨询

微信