社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

Chatgpt出来后,为何要更加重视爬虫预算的优化?

SEOdaniel • 1 年前 • 188 次点击  

自从chatgpt出来后,大家的生成内容的成本和门槛大幅度降低,这势必会导致网站非常容易产生大量的页面。


你渐渐会发现,现在Google已经没那么容易站单全收你的页面了。其实看Google search console就知道,现在很多页面其实都会被干掉收录,或者新页面收录特别慢。


因为Chatgpt的出现,互联网创造内容的速度几乎以20倍以上速度在增加,这意味着爬虫的任务量加大了20倍。爬虫面向20倍的任务,那收录的要求肯定会越来越高,而稍微不合适的页面可能就会被排除在外。


回到正题,那如何优化爬取预算?


一. 解决301、404的问题

这个换成以前可能不算什么问题,但现在就非常重要了。因为爬取预算本来就有限,如果还把预算浪费在这些地方,那网站的爬取效率、排名表现都会非常差。解决方案很简单,利用screamingforg或者semrush和ahrefs的site audit找到这些链接,再从源头的内链去修改就行;


二. 删除GSC Crawl Not index的页面或优化该页面内容


由于页面质量问题,谷歌爬取了你的页面但不被纳入收录,而且在很长一段时间都可能会不被收录。但如果放任这些页面不去处理的话,爬虫还是会爬取这些页面,然后造成预算的快速消耗。


有两种解决办法:


1. 保留页面:把页面重新优化,把内容做得更加丰富,然后重新提交Sitemap。或者把URL直接改掉会更加容易被收录。如果收录还是很慢,可以适当加入我们的拓谷思APL外链去吸引爬虫爬取该URL。


2. 删除页面:把不收录的页面直接清理掉,但是要记得检查301和404的问题。避免拆东墙补西墙。


三. 把重复页面做整合

由于chatgpt很容易就能生成内容,网站在没有规划架构的情况下大量产生内容,这种大概率会存在重复页面。重复页面一来影响爬取预算,二来也会让爬虫觉得你页面太多相互竞争,总体内容质量低,从而不给你太多的排名。


我们最近做的新站非常多。在大批量测试中就能得知哪些页面会是google所喜欢的。我们有一些站点刚上线不到一个月就有70多个词参与排名,0外链的情况下,已经有一些长尾词在首页。



所以,爬取预算的优化、内容质量优化都非常重要。剩余那些排名在20-30名的关键词,我就准备逐一上一点APL外链把排名推起来。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/157246
 
188 次点击