社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

懒人盘新增几千本电子书,再讲一下用python爬虫思路

懒人找资源 • 5 年前 • 675 次点击  


整理了一天的懒人盘,加了很多电子书资源专题,超过千本电子书资源,还在增加中。随着自动化工具越打造越多,后面开学了维护懒人盘也不会太费时间。

懒人盘

经常逛懒人盘的粉丝们肯定注意到,不止01模块每天新增软件
其他模块小懒人只要看到对应的都会整理好放上去,如影视模块,磁力网站模块(磁力网站好像挂了很多,最近补一些)
还有电子书网站模块,整理了比较常用的好用的电子书网站,原本想在号搜开发一个接口,供粉丝查询自动回复电子书电影等资源,想想还是算了,一个是没钱没技术,另一个是不想被微信判违规。(这里纠正一下,现阶段爬虫被抓的主要是涉及到公民隐私数据这块, 别听那些博眼球的公众号发文乱说)
懒人盘地址:http://lazyman.ys168.com/(阅读原文直达)

电子书资源

回归今日主题,在懒人盘05模块分享的电子书网站里面,看到三秋书屋这个挺不错的。看了一下页面结构也不复杂,试了一下能批量下载,就给大家按分类整理了一下到懒人盘。虽然这次也是python自动化批量上传,可目录整理分类也累坏小懒人了。
以下为分类介绍

历史人物主题


在懒人盘12模块,历史人物主题
第一项就为大家整理好目录了,也可长按下图查看目录
国内外历史故事,名人传记,因懒人盘目录限制,只上传近三百份电子书。


人文社科主题


很多法律类的电子书,还有很多法院案例,需要的可以去查看目录,中意的到懒人盘下载。在13模块。


哲学宗教类


国内外经典哲学书籍,还有宗教类。
在懒人盘的电子书14模块



金融商业类



各种投资类书籍,估计体验群会有很多群友们感兴趣。在15模块。
最近懒人星球也有群友分享了很多投资入门的,感兴趣的群友自行去查看下载。


心理科学主题


后面的心理科学主题,医学养生主题,因为幕布分享的次数限制,就不在今天的推文贴二维码了,明天也会把完整的目录链接放在懒人盘对应主题下面。166本心理类+108医学养生类书籍,等你发现~
晚点有时间再多加点主题,比如英文原版书。整理好辛苦,希望大家受益哈哈。
最初的想法是利用幕布,直接把网盘链接放在标题下面,这样方便大家查阅存储和分享,可是幕布不支持标识符分级,手动加又费时间。所以只在幕布放目录,在懒人盘放云盘了。

爬虫思路和部分源码分享

三秋书屋(https://www.d4j.cn/)这个网站挺良心的,大家有能力的可以去打赏支持,而且网站的文章还有内容介绍啊这些。原本要贴源码教大家怎么爬它的,但担心给人家服务器造成负担,这里只聊一下思路。

1 在主页爬详情页链接


利用BeautifulSoup解析完selector筛选器抽出链接,链接在href下,利用get("href")抽出。

2 详情页获取下载页链接



3  下载页获取网盘链接和提取码


上面三个步骤用三个函数写完,嵌套在一起就能实现网盘链接获取。在构造页码循环就能批量获取链接。可以打印也可以存到数据库中。
上面是思路会不会有点绕。这样,给出第一个函数代码,利用它可以爬文章详情页链接。
import requestsdef get_book():    url = "https://www.d4j.cn/" headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36" } web_data = requests.get(url=url,headers=headers) soup = BeautifulSoup(web_data.text,'lxml') links = soup.select('#main > article > div > div.kratos-post-inner-new > header > h2 > a')for i in links: link = i.get('href')        print(link)if __name__ == '__main__': get_book()
运行上面的代码,控制台会输出文章详情页链接
完整代码就不贴了,别给人家服务器造成太大负担。毕竟分享电子书挺公益性质的,小懒人做过懒人晨读和懒人影视,当然懂。
懒人盘里贴的书籍网盘都放着它的网站。算是帮忙打广告了。

额外说一句

点击阅读原文直达懒人盘,这么多电子书,挑些阅读吧,没必要屯太多做松鼠党,要的时候再下。后面研究一下用python批量保存网盘,给大家做份合集也不是不可能,最好做个工具给大家。
早上体验群新增了曹将密圈的资源,pdf做的还挺精致的。
偶尔分享些在懒人盘吧,希望大家多多支持小懒人~~
最近土澳空气质量太差了,不想出门就顺便多给大家分享。昨晚戴口罩出去跑步有点难受,原本好好的环境变成这副鸟样,也是无语。最近澳大利亚政府又各种卡中国博士留学生的签证,fxxk The Government of Australia~
最后希望懒人盘增加的这几千本电子书对你有帮助~
打赏会自动回复一份小礼物~
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/53009
 
675 次点击