Stock Data

Posted: **Sun Jan 26, 2025 9:36 am**

高级 SEO | SEO 工具 | 链接建设
在 Moz，我们致力于让Link Explorer尽可能地与 Google 相似，特别是在我们抓取网络的方式上。我在之前的文章中讨论过我们用来确定性能的一些指标，但今天我想花一点时间谈谈 robots.txt 和抓取网络的影响。

你们大多数人都熟悉robots.txt，它是网站管理员可以指示 Google 和其他机器人仅访问网站上的某些页面的方法。网站管理员可以有选择性地允许某些机器人访问某些页面，同时拒绝其他机器人访问相同的页面。这给 Moz、Majestic和Ahrefs等公司带来了一个问题：我们试图像 Google 一样抓取网络，但某些网站拒绝我们的机器人访问，而允许 Googlebot 访问。那么，这到底有什么关系呢？

这为什么重要？

显示爬虫如何从一个链接跳转到另一个链接的图表
当我们爬行网络时，如果机 VNpay 数据库器人遇到 robots.txt 文件，它们将被阻止爬行特定内容。我们可以看到指向该网站的链接，但对于该网站本身的内容却一无所知。我们看不到该网站的出站链接。这导致链接图立即出现缺陷，至少在与 Google 相似方面（如果 Googlebot 没有受到类似阻止）。

但这不是唯一的问题。由于 robots.txt 以抓取优先级的形式阻止机器人，因此存在级联故障。当机器人抓取网页时，它会发现链接，并且必须确定下一步要抓取的链接的优先级。假设 Google 找到了 100 个链接，并优先抓取排名前 50 位的链接。但是，另一个机器人找到了相同的 100 个链接，但被 robots.txt 阻止抓取前 50 个页面中的 10 个。相反，它们被迫绕过这些页面进行抓取，从而选择抓取其他 50 个页面。当然，这组不同的抓取页面将返回一组不同的链接。在下一轮抓取中，Google 不仅会拥有一组不同的允许抓取的页面，而且由于它们一开始抓取的页面不同，所以该组页面本身也会有所不同。

Stock Data

反向链接盲点 Robots.txt 的状态

反向链接盲点 Robots.txt 的状态