社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

60 行 Python 代码爬取知乎神回复

Linux中国 • 5 年前 • 480 次点击  
简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很 easy?
-- Shenzhongqiang


致谢
转载自 | 
https://mp.weixin.qq.com/s/8MUKe1KEmXvFoAkMqklL4A

 作者 | Shenzhongqiang

知乎上有很多问题的答案很有趣,这些回复我们经常称之为“神回复”,比如下面这些和程序员相关的:

(以下问题及答案的著作权归其作者所有)

Q:码农们最常说的「谎言」有哪些?

A://TODO

Q:在 GitHub 上保持 365 天全绿是怎样一种体验?

A:曾经保持了200多天全绿,但是冷落了女朋友,一直绿到现在。

Q:如何反驳「程序员离开电脑就是废物」这个观点?

A:不不不,很多程序员在电脑前也是废物。

Q:假如有一天所有的人都使用计算机语言说话,会是怎样的场景?

A:hello, world.烫烫烫烫烫烫烫�d}��R�0:�v�?.

Q:突然想开一家程序员主题的餐馆,名字就叫程序员的菜,菜名就叫各种语言中的关键字,各位指点一哈,有前途没?

A:进门一个大大的 hello world 招牌菜叫“红烧产品经理” 一定会爆满的。

Q:什么是递归?

A:「不宜公开讨论的政治内容」的定义和范畴本身也属于「不宜公开讨论的政治内容」。

Q:编程最基本的术语 “bug” 该怎么翻译?

A:幺蛾子,你的程序又出幺蛾子了。

Q:编程的乐趣是什么?

A:人的成就感来源于两样东西,创造和毁灭。

Q:如何反驳「程序员离开电脑就是废物」这个观点?

A:老实说,跟这种女人都能聊下去,你是不是想上她?

Q:作为程序员,你在编程时吃了哪些数学的亏?

A:看论文时候一个"显然"推了我一下午。

Q:土豪程序员的设备都有啥?

A:女朋友……

Q:祈求代码不出 bug 该拜哪个神仙?

A:拜雍正,专治八阿哥。

Q:考上好大学学 IT 是不是当今中国穷人家孩子晋级中产唯一的出路?

A:对,就4条路:写代码、搞金融、在代码圈搞金融、在金融圈写代码。

Q:为什么程序员无论到哪儿都喜欢背电脑包,哪怕里面没有装电脑?

A:因为他们没有别的包。

Q:「Talk is cheap. Show me the code」怎么翻译比较好?

A:屁话少说,放码过来。

Q:为什么程序员的女朋友或老婆颜值普遍要高于男方很多?还是说程序员已经算是婚恋市场的优质股了?

A:程序员女朋友颜值高,我是服的,因为随便问十个程序员他的女朋友是谁,有九个回答是新垣结衣。

Q:为什么一部分人宁可买几个机械键盘换着用,也不愿意给自己敷一下面膜?

A:老子不靠脸吃饭。老子的辛辛苦苦挣来的钞票。老子想怎么花就怎么花。

Q:程序员夫妻结婚戒指刻什么字好?

A:0 error 0 warning

Q:IT 工程师被叫「码农」时是否会不舒服?

A:我们好歹还是人,产品和设计已经是狗了……

Q:为什么一个销售男(30岁)会约我一个男程序员(24岁)去小区附近的星巴克?

A:根据哥多年的经验,他应该是有巨牛逼的 idea 然后只差程序员去实现了。

Q:怎么找到喜欢程序员的妹子做女友?

A:看缘分,知乎上这么多用户,你关注到我就是缘分。

Q:程序员女朋友如何给程序员男朋友过生日?

A:告诉他,接口已经准备好了。

Q:作为程序员,你是如何在工作以后找到女朋友的?

A:题主作了这么久的程序员,还喜欢女孩子已经难能可贵了。

Q:程序员转行烧烤需要做哪些准备,有哪些优势和劣势?

A:你看,你连自己做烧烤都不知道优势劣势在哪里,所以,你还是需要一名产品经理。

Q:哪些话可以惹火程序员?

A:路过他电脑前时说一句,呦,又在写bug呢!

Q:我的一位老师说,Java 适用于大型软件而 C# 适用中小型软件。这是真的么?

A:Java 有项天赋,就是能把中小型软件写成大型的。

Q:为什么 2014 年程序员薪资那么高?

A:时薪又不高。

Q:是不是大部分程序员都在抱怨工资低?

A:谁、谁在抱怨工资高?

Q:单身程序狗解决了一个技术难题后没有妹子可以炫耀或夸一下自己怎么办?

A:现在你明白了吧,为什么那么多程序员要写技术博客。

Q:中国程序员是否偏爱「冲锋衣+牛仔裤+运动鞋」的衣着?如果是,为何会形成这样的潮流?

A:穿那么好看给程序看吗?

Q:作为 IT 从业人员,你觉得有什么工具大大提高了你的工作效率?

A:单身。

Q:为什么我认为程序员似乎大多不善言辞?

A:你就当是我们情商低就好了,这样你开心,我们也开心。

Q:在中国,年龄最大的程序员不过40岁左右,请问中国的程序员未来还可以做什么?

A:这跟为什么90后没人活过30岁是同一个原理。

Q:如何回复程序员发来的短信:「Hello world」?

A:hello nerd.

Q:怎么看出 IT 男喜欢一个女生?

A:当他拼着自己早已养成的寡言少语的习惯去死命的跟你套近乎的时候。

Q:为什么程序员不应该会修电脑?

A:范冰冰需要会修电视机吗?

Q:同事说自己 C++ 水平全中国第一,怎么让他意识到自己没那么厉害?

A:实不相瞒,我也不是装逼:我的 C++ 水平全国第 0。

Q:为什么 iPhone 删软件时,所有图标都要抖?

A:第三方软件是吓得,系统自带软件是嘚瑟。

Q:左轮手枪装有一颗子弹,对着自己头开一枪奖励 10 万元,两枪 1 亿,三枪 2 亿,四枪 4 亿,五枪 16 亿,值得吗?

A:只要不打要害,我告诉你,我能打到我们 A 站上市!!!!

Q:iPhone 处理器的性能按照现在每年翻一倍的节奏,是不是很快就能赶上甚至超过台式电脑的处理器?

A:小时候我总觉得过两年我就能和大我两岁的哥哥一样大了。

Q:知乎给你带来的最小限度的好处是什么?

A:消磨时间还不觉得罪恶。

Q:有哪些反人类的科技发明或设计?

A:电脑连不上网,诊断以后它提示我要联网解决。

Q:为什么设计师不愿意被称为美工?

A:只要工资开的高,叫我阿姨都行。

Q:为什么有人认为网易云音乐是业界良心?

A:有一天突然给我推送一条消息说我要的歌词找到了。

Q:为什么没有出现无人机自毁式攻击武器呢?恐怖分子用过吗?

A:你是说导弹么?

Q:既然思想是我的,那么为什么有时候我控制不了我的负面情绪?

A:操作系统不会允许用户访问、修改及删除核心系统文件,因为这会损坏系统,导致运行异常。

Q:鲁迅虽然很牛,但在这世界十大文豪里是不是凑数的?

A:为什么文豪要为文盲排的榜买单?

Q:人类的哪些科技已经接近瓶颈,很久没有重大突破了?

A:烧开水。

Q:如何看待某些人下载软件喜欢到官网的偏好?

A:同学你没中过百度全家桶吧?

Q:为什么很多人买笔记本打游戏,而不用性能更好的台式机?

A:因为买不起房子……

Q:第一次听好耳机对你带来的震撼有多大?

A:第一次听好耳机不会给人多大震撼,但是当换回普通耳机的时候,震撼就来了。

Q:Chrome 真的很费电吗?

A:不费电,我现在就在用Chrome,用到现在这么久,笔记本电量还有50%,我估讠

Q:MacBook 上安装 Windows 后的使用体验如何?

A:像突然间有了软肋,并且还失去了铠甲。

Q:家里所有有关产品都用苹果产品是一种什么体验?

A:来个电话全家都响了起来。

Q:你为什么不买 iPhone X?

A:日益增长的美好生活需要和贫穷的现实之间的矛盾。

Q:为什么有人愿意花几千元买 iPhone ,却不愿意花几十元买正版 iPhone 软件和游戏?

A:因为他们下载不到 iPhone。

Q:有什么 App 取的名字特别惊艳?

A:水表助手…是查快递的…

Q:你为什么要买移动硬盘?

A:条件好了也要给自己的女人们住舒适点啊。

Q:如何用 iPad 遥控 PC 关机?

A:瞄准 PC 电源键扔过去。

Q:如何评价 2016 年 9 月 7 日的苹果发布会?

A:为了新MacBook Pro,半年看了三场发布会……

Q:如何评价 Internet Explorer?

A:下载其他浏览器的浏览器……一年后……IE8 以下好烂,做前端想哭的节奏。

Q:爸妈让我攒钱买房,我却想买苹果电脑怎么办?

A:你要真能 3 年攒 50 万的房子,差这 1 万 7 买个电脑么,大哥?

Q:有哪些垃圾手机软件?

A:短信拦截软件! 拦截后告诉你它拦截了一条短信。 我相信 99% 的人会再去点进去看一下被拦截的短信!

Q:一个完整的 PPT 做下来,最让你头疼的是什么?

A:怎样向领导隐藏自己的实力。

Q:什么是 Vim 可以做而 Emacs 做不到的?

A:帮助乌干达的可怜儿童……

Q:苹果用户为什么选择苹果?

A:因为不用苹果的用户不是苹果用户。

Q:计算机世界里有哪些经典谣言?

A:Windows 正在联机寻找解决方案。

Q:有线鼠标会被无线鼠标取代吗?

A:我觉得在网吧有线鼠标就不会被取代。

Q:计算机世界里有哪些经典谣言?

A:我已阅读并同意该条款。

Q:计算机系的学生都有哪些口头禅?

A:我电脑上运行的好好的啊⋯⋯

Q:如何看待百度官博公开辟谣涉李彦宏家事传闻?

A;「中国人对隐私没那么敏感,愿意用隐私换取便利。」——李彦宏

Q:在飞机上遇到了马云该怎么聊天?

A:Hello Jack, my name is Jackson.

Q:如何理解马云说八年后房如葱?

A:赶紧买葱啊,葱要涨价了!!!

Q:如何理解马云说的「把地主杀了,不等于你能富起来」这句话?

A:他的意思是「别杀我」。

Q:如何看待百度在魏则西事件过去之后又悄悄的把承诺整改的广告提示颜色调淡了?

A:请大家不要黑百度,我是做前端开发的,这是时间久了,网页 CSS 掉色了。

(以上问题及答案的著作权归其作者所有)


那么这些神回复是如何爬取的呢?其实很简单,这篇文章我们就来揭晓一下背后的原理。

知乎神回复都有些什么特点呢?我们先来观察一下:

大家看出什么规律了么?短小精辟有没有?赞同很多有没有?所以爬取知乎神回复我们只要爬取那些赞同多又字数少的回答就可以。简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很 easy?

爬取知乎回答

第一步我们爬取知乎上的回答。知乎上的回答太多了,一下子爬取所有的回答会很费时,我们可以选定几个话题,爬取这几个话题里的内容。

下面的函数用于爬取某一个指定话题的内容




    
  1. def get_answers_by_page(topic_id, page_no):

  2.    offset = page_no * 10

  3.    url = <topic_url> # topic_url是这个话题对应的url

  4.    headers = {

  5.        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",

  6.    }

  7.    r = requests.get(url, verify=False, headers=headers)

  8.    content = r.content.decode("utf-8")

  9.    data = json.loads(content)

  10.    is_end = data["paging"]["is_end"]

  11.    items = data["data"]

  12.    client = pymongo.MongoClient()

  13.    db = client["zhihu"]

  14.    if len(items) > 0:

  15.        db.answers.insert_many(items)

  16.        db.saved_topics.insert({"topic_id": topic_id, "page_no": page_no})

  17.    return is_end

get_answers_by_page 函数有两个参数,第一个参数是话题的 id,第二个参数表示爬的是第几页的内容。
爬下来的内容当中有几个需要注意的字段,下图中用黄框高亮出来了:


这几个字段的含义如下:

◈ question.title - 问题的标题
◈ content  - 回答的内容
◈ voteup_count - 赞同的数量

这些字段在下一步筛选回答的时候会用到。

筛选回答

爬完数据后,我们来筛选一下结果。

我们用 MongoDB 中的聚合管道对回答做筛选(关于 MongoDB 的聚合管道的用法可以参考 Aggregation Pipeline Quick Reference[1] 这篇文章),代码如下:

  1. client = pymongo.MongoClient()

  2. db = client["zhihu"]

  3. items = db.answers.aggregate([

  4.    {"$match": {"target.type": "answer"}},

  5.    {"$match": {"target.voteup_count": {"$gte": 1000}}},

  6.    {"$addFields": {"answer_len": {"$strLenCP": "$target.content"}}},

  7.    {"$match": {"answer_len": {"$lte": 50}}},])

上面的代码会筛选所有赞同大于 1000、字数小于 50 的回答,筛选出来的结果就是短小精辟的神回复。

以上是核心代码,完整代码已上传 GitHub[2] 。

知乎神回复

代码写完了,你可以自己运行下看看。



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/Fcli5ObnpF
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/26534
 
480 次点击