Py学习  »  Python

Python爬虫与文本分析工作坊 & 课题申报高级研修班

唧唧堂 • 4 年前 • 710 次点击  

2019·国庆·杭州 | Python爬虫与文本分析工作坊 & 课题申报高级研修班




工作坊信息

工作坊简介


在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。


大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:


  • 数据的获取

  • 文本(非结构化)数据的处理与分析


数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的经管类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。


申报课题是研究人员最基础的基本功,是做科研事业的第一步工作,这一步就像是一个人学走路一样,一定要大胆地学,否则就不会走路。每一年,科研工作者都会遇到课题申报的机会,也会由于每年申报课题的人很多,不少课题申报都以失败告终。如何能让你的课题脱颖而出,成功申报课题呢?本次工作坊聘请课题申报专家帮您了解课题申报的资助政策、资助信息以及项目指南,获取课题申报的动态和走向,正确选择研究项目领域,掌握申请书的申报撰写方法及规范格式,帮助您解决在课题申报中遇到的实际问题,引导广大学者顺利申报国家自科和社科项目。


工作坊特色

理论与案例相结合旨在帮助零基础学员轻松入门Python,由浅入深学习和掌握Python的编程技术

循序渐进的练手项目如果课程里面只是对着屏幕把项目代码敲一遍,那其实看了也不能自己真正掌握,遇见问题也不知道如何解决。重要的是自己在课程中跟着老师动手实践,及时请教老师。

配备了答疑服务实际编程会遇到问题被卡住是常见的一个事情,我们在课程期间和课程以后,均对学员提供了长期的答疑解惑和技术支持。




主讲人简介


大邓:哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学做数据采集和文本分析分享,运营【公众号:大邓和他的Python】主要分享Python、爬虫、文本分析、机器学习等相关内容。

刘文革:教授,博士,博士后,现任浙江工商大学国际商务研究院执行院长、地缘政治经济研究所所长。主持国家社科重大项目1项;4项国家社科和自然基金一般课题;3项教育部人文社科基金课题;2项中国博士后基金项目。获3项省部级科研奖励。2008年入选教育部新世纪优秀人才,北京市宣传系统四个一批人才;教育部高等学校经济与贸易类专业教学指导委员会委员(2018-2022)。2012年成为浙江省高校“钱江学者”特聘教授。同时兼任中国新兴经济体研究会常委理事,中国数量经济学会理事、中国拉美学会常务理事、中国世界经济学会理事等职,其成果发表在国内重要期刊:《经济研究》、《世界经济》、《经济学动态》、《管理世界》等杂志上。

谢杰(课程总监):教授,博士后,北卡大学教堂山分校(UNC)访问学者,人大经济论坛计量经济学与统计版咨询顾问。目前承担“计量经济学”、“经济学实证分析前沿”、“国际电子商务”等课程的教学。主持了教育部人文社科项目、中国博士后基金项目、浙江省自科基金项目、浙江省哲社课题等。发表了若干篇教育部A类期刊。研究方向:国际贸易与投资理论,CGE建模,计量经济学等。




课程安排



Part-1 Python基础语法

·Python与English一样都是语言

·Python能做什么

·Python环境配置

·Jupyter notebook使用方法

·第三方库安装方法

·Python语言的语法

·Python语言中的单词-数据结构

·Python语言中的逻辑表达-循环、条件判断

·常用函数、常用库

·正则表达式库 re

·python常见错误

·绘制专业的GIS地图


Part-2 数据采集(网络爬虫)

·数据采集原理

·爬虫设计思路

·开发者工具使用方法

·网络访问库-requests

·网络访问伪装库-selenium

·网页数据定位库-bs4、re

·数据存储(txt,csv,json)

·静态网站与动态网站区别

·数据抓包(开发者工具使用方法)

·如何应对网站的反爬


实战

·抓取大众点评网的酒店数据

·淘宝商品商品信息

·爬取京东网商品评论数据

·用selenium伪装成人类浏览网页的行为去采集网站数据

·宏观经济金融类数据抓取(tushare)


Part-3 简单的文本分析

·文本分析应用场景

·简单文本分析思路

·如何读取数据(txt、pdf、csv、docx等)

·中文数据处理库-jieba库

·英文数据处理库nltk、spacy

·数据清洗与信息检索-re库

·数据科学家必备-pandas库

·共现法构建专业领域情感词典

·词典法进行文本分析的优缺点

·在经济金融、会计财务、营销管理等研究领域,能从文本数据中抽取哪些经济变量


实战

·词频统计、词云图制作

·文本可读性

·使用共现法构建专业领域的词典

·基于词典法进行情感计算(中英文均可)


Part-4 文本分析与机器学习

·人工智能、机器学习、深度学习之间的关系

·监督学习与非监督学习

·使用机器学习(NLP)进行文本分析的步骤

·特征工程-表征文本数据信息的方式

·文本信息表征方法-one-hot、bag-of-words

·文本信息表征方法 TF-IDF

·文本信息表征方法-word2vec

·理解特征矩阵、语料、文档

·机器学习库Sklearn介绍

·让机器理解数据-sklearn的Transformer

·让机器学习到规律-sklearn的Estimator

·将数据分析任务改装成流水线-sklearn的Pipeline

·如何保存训练好的模型

·文本分析炼丹师-sklearn的参数搜索Gridsearch

·机器学习进行文本分析的优缺点


实战

·文档相似性计算

·如何从文本数据中用户(公司)进行画像

·话题分析-lda话题模型实战

·文本分类-判断是否为垃圾邮件

·如何将任何entity的属性信息转化为向量(user2vec、company2vec、brand2vec...)


Part-5 课题申报高级研修

·结合自己研究、申报经验,对课题申报流程、研究方法、注意事项等作深入细致的讲解,多维度传授申报经验

·详细介绍课题申报书写作特点、写作方法、写作技巧及要求

·如何提升申报书质量,提高申报获准率

·书写科研课题申报书应注意的关键问题

·以实际成功申请书为例对课题申报书中的研究方法、思路、技术路线进行深入阐释,促进项目申报经验的交流与分享


重点文献

·沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述

[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19

·Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230.

·王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.

·Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.

·Chan J T K, Zhong W. Reading China: Predicting policy change with machine learning[J]. 2018.

·Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.




课程概览


·培训对象:国内高校教师、硕士生、博士生、博士后、科研院所科研人员、社会团体及网络爬虫技术爱好者。

·主办:杭州国商智库信息技术服务有限公司

·上课时间:2019104-6日(10月3日报到)

·上课地点:浙江·杭州·钱塘新区高教园区东区

·主讲嘉宾:大邓、刘文革

·授课内容Python爬虫分析、课题申报高级研修



报名信息


·报名费用及优惠:3000元/人,可开具发票。本次培训往返交通费与食宿费学员自理,提供歌江维嘉大酒店周边住宿信息,并协助安排附近校内就餐事宜。同一单位或机构三人九折,五人八折,在校学生可凭学生证补贴折扣100元/人

·住宿安排:工作坊签约四星级酒店,标间或大床房每天约350元,含自助早餐;或附近旅馆标间、大床房每天约200元,会务组提供住宿咨询。

·报名时间:即日起开始正式报名和收费(按缴费顺序安排教室座位)。

·联系方式:198-1711-7852(微信手机同号)

·缴费信息:

单位:杭州国商智库信息技术服务有限公司

开户银行:中国银行杭州大学城支行

银行账户:6232636200100260588



1

欢迎扫码咨询!!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/40865
 
710 次点击