社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  python开源

爬虫是什么?爬虫能干什么?一篇小白能懂的Python爬虫工作流程!

夏天 • 5 年前 • 742 次点击  

这篇文章是给正准备学习或者想要Python爬虫小白们看的。

根据使用场景,网络爬虫可分为通用爬虫(传统爬虫)和聚焦爬虫两种。 1.通用爬虫捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。但是大多数情况下,网页里面90%的内容对用户来说是无用的。

2.聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。 更多干货分享加python编程语言学习QQ群 5+526+7276 而我们现在要学的就是聚焦爬虫:

https://img-blog.csdn.net/20181023100056347?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NieWFjcTc5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70 http请求: 浏览器的一个url向http服务器发送请求,分为:get和post两种。

浏览器发送一个request请求去获取URL的html文件,服务器把response文件对象发送回给浏览器。

浏览器解析response中的HTML,其中的img文件,css文件,js文件,浏览器会自动再次发送request请求获取图片,css文件或js文件。

当所有的文件都下载成功后,网页会根据HTML语法结构,完整地显示出来。 https://img-blog.csdn.net/20181023100112609?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NieWFjcTc5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

HTTP请求主要分为Get和Post两种方法: GET是从服务器上获取数据,POST是向服务器传送数据 GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数 来产生响应内容,即"get"请求的参数是url的一部分。例如:Chinese_百度搜索

向指定资源提交数据进行处理请求(例如提交表单或者上传文件),数据被包含在请求体中。POST请求可能会导致新的资源的建立或已有资源的修改,一般主要是表单提交,请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在"Content-Type"消息头里,指明该消息体的媒体类型和编码。

注意:避免使用Get方式提交表单,因为有可能会导致安全问题。 比如说在登陆表单中用Get方式,用户输入的用户名和密码将在地址栏中暴露无遗。

Python爬虫工作的流程图: https://img-blog.csdn.net/20181023100135616?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NieWFjcTc5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70 看懂了吗?不懂可以私信我回复【爬虫】,有爬虫入门视频教程!希望对你学习有帮助!

更多干货分享加python编程语言学习QQ群 515+26+7276

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/26780
 
742 次点击