Chatgpt出来后，为何要更加重视爬虫预算的优化？

自从chatgpt出来后，大家的生成内容的成本和门槛大幅度降低，这势必会导致网站非常容易产生大量的页面。

你渐渐会发现，现在Google已经没那么容易站单全收你的页面了。其实看Google search console就知道，现在很多页面其实都会被干掉收录，或者新页面收录特别慢。

因为Chatgpt的出现，互联网创造内容的速度几乎以20倍以上速度在增加，这意味着爬虫的任务量加大了20倍。爬虫面向20倍的任务，那收录的要求肯定会越来越高，而稍微不合适的页面可能就会被排除在外。

回到正题，那如何优化爬取预算？

一. 解决301、404的问题

这个换成以前可能不算什么问题，但现在就非常重要了。因为爬取预算本来就有限，如果还把预算浪费在这些地方，那网站的爬取效率、排名表现都会非常差。解决方案很简单，利用screamingforg或者semrush和ahrefs的site audit找到这些链接，再从源头的内链去修改就行；

二. 删除GSC Crawl Not index的页面或优化该页面内容

由于页面质量问题，谷歌爬取了你的页面但不被纳入收录，而且在很长一段时间都可能会不被收录。但如果放任这些页面不去处理的话，爬虫还是会爬取这些页面，然后造成预算的快速消耗。

有两种解决办法：

1. 保留页面：把页面重新优化，把内容做得更加丰富，然后重新提交Sitemap。或者把URL直接改掉会更加容易被收录。如果收录还是很慢，可以适当加入我们的拓谷思APL外链去吸引爬虫爬取该URL。

2. 删除页面：把不收录的页面直接清理掉，但是要记得检查301和404的问题。避免拆东墙补西墙。

三. 把重复页面做整合

由于chatgpt很容易就能生成内容，网站在没有规划架构的情况下大量产生内容，这种大概率会存在重复页面。重复页面一来影响爬取预算，二来也会让爬虫觉得你页面太多相互竞争，总体内容质量低，从而不给你太多的排名。

我们最近做的新站非常多。在大批量测试中就能得知哪些页面会是google所喜欢的。我们有一些站点刚上线不到一个月就有70多个词参与排名，0外链的情况下，已经有一些长尾词在首页。

所以，爬取预算的优化、内容质量优化都非常重要。剩余那些排名在20-30名的关键词，我就准备逐一上一点APL外链把排名推起来。