典型问题识别错误链接的来源 - 北京东城交道口其他生活服务

典型问题识别错误链接的来源

去年，我写了一篇文章，内容讨论如何检查X-Robots-Tag，以排除潜在危险的机器人指令（因为它们可以通过头部响应传递，并且肉眼是看不见的）。在大型站点上，这可能是非常危险的，因为当页面表面上看起来很好时，但实际上页面可能会被错误地索引。

当然，您也可以通过头部响应来设置rel规范。但是这可能会导致一些奇怪的问题（如果您不知道如何设置rel规范，这可能会让您抓狂）。在某些情况下，您可以为一个URL使用多个规范标记（一个通过头部响应，另一个在超文本标记语言中）。当这一切发生的时候，谷歌可以忽略所有的规范标签，就像他们在博客中提到的与rel规范的共同错误一样。更多文章阅读：美国VPS主机cn.blu***

通过检查“没有有效规范标记”的“页面”，然后通过rel规范头URL和rel规范超文本标记语言 URL进行过滤，就可以解决所有有这个问题的URLs。然后，您可以与您的开发团队一起来确定为什么会发生这些代码的问题。

在URL找到了！识别错误链接的来源

在大规模的爬行过程中，毫无疑问您会遇到爬行错误（如404s、500s和其他的一些错误）。仅仅知道URLs返回错误通常还不够。您确实还需要跟踪这些URLs在站点之间链接位置的。

您想要在规模上解决问题，但是又不仅仅是一次性解决问题。为了做到这一点，可以从任何爬行错误报告（或者从非200报告）中“找到”URLs来过滤。然后，您可以使用正则表达式来呈现页面类型和/或目录，这些目录可能与返回爬行错误的页面会有很大的链接。

双重检查AMP URLs ：所有的rel链接

想使用加速移动页面（AMP）吗？要双击您在超文本标记语言中使用rel=amphtml引用的URLs ，您可以检查“所有rel链接”报告并通过amphtml进行过滤。然后您可以为“URL”应用另一个过滤器，以确保这些是您所引用的真正的amp URL。再一次说明，这只是一个简单的例子，是为了说明过滤是如何揭露表面的一些邪恶问题的。

下载过滤的CSV

我提供了几个例子是在关于深入分析爬行数据时，您可以使用高级过滤。但是当您想要导出这些数据的时候呢？由于您在过滤方面进行了如此出色的工作，您肯定不希望在导出时丢失过滤后的数据。

由于这个原因，DeepCrawl有一个强大的选项来“生成过滤的CSV”。通过使用这个特性，您可以轻松地导出过滤后的数据，而不是整个事情的经过。然后您可以进一步分析Excel或者发送给您的团队和/或客户。那么这样就太棒了。

在Screaming Frog中进行过滤

对于Screaming Frog，过滤器没有那么健壮，但是您仍然可以在UI中过滤数据。但是有许多人不知道这一点，但是正则表达式在搜索框中得到了支持。因此，您可以使用您在 DeepCrawl（或其他地方）中使用的任何正则表达式，通过报告类型在Screaming Frog中过滤 URLs。

例如，检查响应代码并希望能够通过目录快速检查这些 URLs这个方法呢？然后使用管道字符来包含特定的页面类型或目录（或模式）。您将看到基于正则表达式的报告更改。

并且您可以利用预过滤的报告，然后在您自己的过滤上进行分层。例如，您可以检查一些带有长标题的页面，然后使用正则表达式进行筛选，以开始显示特定的页面类型或模式。

这种过滤器适用于所有的专栏！因此，您可以为该特定报告中列出的任何列使用正则表达式。例如，下面我将从包含规范URLs标签中的所有URLs开始，然后我将使用“不被索引”来显示包含元机器人标签的URLs。

如果一个URL没有被索引，那么它就不应该包含规范的URL标记（两者是互相攻击）。Rel规范告诉引擎，它是索引的URL，而使用不被索引的元机器人标记则告诉引擎不要索引URL。但是这没有任何意义。这只是一个简单而快速举地例子，您可以在Screaming Frog中进行过滤。注意：Screaming Frog有一个“规范错误”的报告，但是这是在UI中过滤掉表面问题的一种快速解决方法。

从导出的角度上来看，不幸的是不能只可以导出过滤后的数据。但是您可以快速地将过滤后的数据复制并粘贴到Excel中。谁能知道呢，也许在Screaming Frog上，聪明的人也许会建立一个“出口过滤数据”选项。

总结：都是在过滤器中

我在网站上爬行和分析抓取数据这两个方面花费了很多的时间，我也不能过于强调过滤的力量。当您添加正则表达式支持时，您可以真正开始对数据进行切片和切割，以解决潜在的问题。您能越快地解决表面的一些问题，你就能越快地解决这些问题了。对于拥有数万、数十万甚至上百万页面的大型站点来说，这一点尤其十分重要。