Py学习  »  Python

python-html转pdf

python实战 • 6 年前 • 880 次点击  


下班之后。

冷清灯光下的街道。

十字路口拐角情侣的拥抱。

而我。

我一个狗吃饭,到处走走停停。


今天给大家介绍如何把html网页转换为PDF文件。这样就可以卖盗版书发家致富了。

下图是网上的一个python教程。

我们可以看到页面结构是左侧为目录,右侧为正文。把目录和正文提取出来就OK啦。

转换之后的效果是这样的。图片和细节的部分没有调整。大致能看。盗版书管那么多干嘛。


实现的关键是使用了pdfkit这个库。pdfkit是wkhtmltopdf这个软件的python封装,可以将HTML、CSS格式的文件转换成PDF格式文档。

先使用requests抓取每个目录的url,然后再通过目录的url抓取对应的正文页面源码。使用BeautifulSoup工具来解析页面源码,将需要的html结构提取出来保存为html文件。之后用pdfkit把html文件转为pdf文件。

代码长这样:



就是这样。通过卖盗版书我们距离发家致富又进了一步。


而我。

我一个狗看盗版书。


 2017.12.15

微信ID:python_friend



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/X1hqN20WHd
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/4670
 
880 次点击