如果您也使用蜘蛛程序
使用您最喜欢的爬网软件从您的网站进行爬网。我可能有偏见,但我是尖叫青蛙 SEO 蜘蛛的忠实粉丝,所以我将使用它。,请逐字执行这些步骤,但否则,请自行调用以获得相同的结果。
从 SEO Spider(内部选项卡 >“过滤器:HTML”)导出内部 HTML 报告并打开“internal_all.xlsx”文件。
从那里,您可以过滤“可索引性状态”列并删除所有 facebook 数据库 空白单元格。为此,请使用“不包含”过滤器并将其留空。您还可以添加“and”运算符并通过使过滤器值等于“不包含→”重定向”来过滤掉重定向的URL,如下所示:
这将向您显示标准化的、无索引的元机器人和标准化的 URL。
复制此新表(仅包含“地址”和“可索引性状态”列)并将其粘贴到日志文件分析导出的另一张表中。
现在来一些 VLOOKUP 魔法。首先,我们需要确保 URI 或 URL 列数据与爬网数据的格式相同。
日志文件的 URL 中通常没有根域或协议,因此我们需要在新制作的工作表中使用“查找和替换”删除 URL 的头部,或者在日志文件分析表中创建一个新列,将协议和根域附加到 URI 干。我更喜欢这种方法,因为这样您就可以快速复制并粘贴您遇到问题的 URL 并进行查看。但是,如果您有大量日志文件,则使用“查找和替换”方法可能会减少 CPU 密集程度。
要获取完整的 URL,请使用以下公式,但将 URL 字段更改为您正在分析的任何站点(并确保协议也正确)。您还需要将 D2 更改为 URL 列的第一个单元格
頁:
[1]