反向链接盲点 Robots.txt 的状态
Posted: Sun Jan 26, 2025 9:36 am
高级 SEO | SEO 工具 | 链接建设
在 Moz,我们致力于让Link Explorer尽可能地与 Google 相似,特别是在我们抓取网络的方式上。我在之前的文章中讨论过我们用来确定性能的一些指标,但今天我想花一点时间谈谈 robots.txt 和抓取网络的影响。
你们大多数人都熟悉robots.txt,它是网站管理员可以指示 Google 和其他机器人仅访问网站上的某些页面的方法。网站管理员可以有选择性地允许某些机器人访问某些页面,同时拒绝其他机器人访问相同的页面。这给 Moz、Majestic和Ahrefs等公司带来了一个问题:我们试图像 Google 一样抓取网络,但某些网站拒绝我们的机器人访问,而允许 Googlebot 访问。那么,这到底有什么关系呢?
这为什么重要?
显示爬虫如何从一个链接跳转到另一个链接的图表
当我们爬行网络时,如果机 VNpay 数据库 器人遇到 robots.txt 文件,它们将被阻止爬行特定内容。我们可以看到指向该网站的链接,但对于该网站本身的内容却一无所知。我们看不到该网站的出站链接。这导致链接图立即出现缺陷,至少在与 Google 相似方面(如果 Googlebot 没有受到类似阻止)。
但这不是唯一的问题。由于 robots.txt 以抓取优先级的形式阻止机器人,因此存在级联故障。当机器人抓取网页时,它会发现链接,并且必须确定下一步要抓取的链接的优先级。假设 Google 找到了 100 个链接,并优先抓取排名前 50 位的链接。但是,另一个机器人找到了相同的 100 个链接,但被 robots.txt 阻止抓取前 50 个页面中的 10 个。相反,它们被迫绕过这些页面进行抓取,从而选择抓取其他 50 个页面。当然,这组不同的抓取页面将返回一组不同的链接。在下一轮抓取中,Google 不仅会拥有一组不同的允许抓取的页面,而且由于它们一开始抓取的页面不同,所以该组页面本身也会有所不同。
在 Moz,我们致力于让Link Explorer尽可能地与 Google 相似,特别是在我们抓取网络的方式上。我在之前的文章中讨论过我们用来确定性能的一些指标,但今天我想花一点时间谈谈 robots.txt 和抓取网络的影响。
你们大多数人都熟悉robots.txt,它是网站管理员可以指示 Google 和其他机器人仅访问网站上的某些页面的方法。网站管理员可以有选择性地允许某些机器人访问某些页面,同时拒绝其他机器人访问相同的页面。这给 Moz、Majestic和Ahrefs等公司带来了一个问题:我们试图像 Google 一样抓取网络,但某些网站拒绝我们的机器人访问,而允许 Googlebot 访问。那么,这到底有什么关系呢?
这为什么重要?
显示爬虫如何从一个链接跳转到另一个链接的图表
当我们爬行网络时,如果机 VNpay 数据库 器人遇到 robots.txt 文件,它们将被阻止爬行特定内容。我们可以看到指向该网站的链接,但对于该网站本身的内容却一无所知。我们看不到该网站的出站链接。这导致链接图立即出现缺陷,至少在与 Google 相似方面(如果 Googlebot 没有受到类似阻止)。
但这不是唯一的问题。由于 robots.txt 以抓取优先级的形式阻止机器人,因此存在级联故障。当机器人抓取网页时,它会发现链接,并且必须确定下一步要抓取的链接的优先级。假设 Google 找到了 100 个链接,并优先抓取排名前 50 位的链接。但是,另一个机器人找到了相同的 100 个链接,但被 robots.txt 阻止抓取前 50 个页面中的 10 个。相反,它们被迫绕过这些页面进行抓取,从而选择抓取其他 50 个页面。当然,这组不同的抓取页面将返回一组不同的链接。在下一轮抓取中,Google 不仅会拥有一组不同的允许抓取的页面,而且由于它们一开始抓取的页面不同,所以该组页面本身也会有所不同。