近日,清华大学五道口金融学院研究生分会和清华大学学生大数据研究协会联合举办了【"学术之路"讲座——Python科研应用分享会】。本期讲座邀请了能源环境经济研究所2025级博士研究生毛涵洁同学,为有志于学习编程但非计算机、非数据科学专业的同学提供极具实操性的“跨界科研工具箱”,通过三期连讲的形式,手把手带领同学们实现从静态网页解析到复杂动态数据抓取的科研进阶。讲座以Python爬虫与金融文本分析为主题,分为基础篇、进阶篇、实战篇三部分。
活动回顾
近日,【“学术之路”讲座——Python科研应用分享会】第一讲拉开帷幕。本期讲座由展开同学主持,毛涵洁同学担任主讲。她从爬虫的技术本质出发,带领同学们认识了 Requests 库这一核心利器。讲座以新浪财经ESG频道为例,带领零基础同学完成了静态网页数据的精准提取,打通了数据采集的第一道关卡。
图为嘉宾介绍HTML相关基础知识▲
第二讲由毛涵洁同学继续主讲。她深入剖析了AJAX技术原理,并指导同学们使用浏览器开发者工具(F12)进行抓包分析,掌握直接定位并获取后台JSON数据接口的方法,实现高效的数据采集。针对更复杂的交互页面,讲座还介绍了Selenium浏览器自动化工具作为“保底方案”,并分享了PyMuPDF与pdfplumber库在解析金融PDF文档中的关键技巧。
图为嘉宾进行爬虫技术原理讲解▲
收官讲座由熊陈言同学主持。本场聚焦真实金融科研场景,毛涵洁以巨潮资讯网A股年报的批量下载与处理为例,演示了如何运用多进程并发技术大幅提升采集效率。随后,进一步讲解了多进程文本分析、词频统计与情感分析等深度挖掘技术,并以国际金融公司(IFC)数据库的抓取为例,完整展示了Selenium在跨国研究数据闭环中的应用。
图为嘉宾讲解实战案例▲
活动总结
本次系列讲座立足于金融科研实操,从基础解析到动态抓取,再到大规模处理与文本分析,切实回应了同学们在交叉学科研究中面临的“数据获取难、处理效率低”的核心痛点。通过系统的编程思维训练与实战案例拆解,参与同学不仅掌握了Python这一重要的科研“生产力工具”,更强化了利用数字化手段驱动学术创新的意识。活动有效促进了跨学科学术交流,为培养兼具专业素养与数据分析能力的复合型人才奠定了坚实基础。
“学术之路”系列讲座将持续关注前沿科研方法与学术成长需求,为同学们提供更多高质量的学习交流平台。
图为嘉宾与学员合影留念▲
来源 | 清华大学五道口金融学院研究生分会
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU