Robots.txt 验证器

一个有用的技术 SEO 工具，用于验证任何网站的允许和禁止指令

Features

验证 Robots.txt 文件

监控和检查索引控制参数

检查机器人元标签

找到带有禁止和允许指令的 URL

识别 Robots.txt 错误

检测机器人元标记语法中的逻辑错误

Related Tools

ETTVI 的 Robots.txt 验证器

发现禁止搜索引擎实时抓取您的网站或为您的网站编制索引的机器人排除项

确保所有不重要的网页、媒体文件和资源文件都被阻止爬行 - 使用 ETTVI 的 Robots.txt 验证器验证指示搜索引擎爬行程序（用户代理）爬行网站的方式。输入网站网址；选择用户代理，并检查它是否允许或禁止相应用户代理的活动，例如爬网和网页索引。

ETTVI 的 Robots.txt 验证器可以更轻松地查明是否所有爬虫都被禁止爬行特定页面/文件，或者是否有任何特定机器人无法爬行它。

将这个有用的 SEO 工具投入使用，以监控网络爬虫的行为并调节您网站的爬行预算 - 免费。

如何使用 ETTVI 的 Robots.txt 验证器？

按照以下简单步骤，使用 ETTVI 的高级工具测试网站的 robots.txt 文件：

第 1 步 - 输入网址

写一个网站的 URL，如下所示：

注意：不要忘记在斜杠后面添加“robots.txt”。

第 2 步 - 选择用户代理

指定您要检查 robots.txt 文件的爬网程序

您可以选择以下任意用户代理：

谷歌机器人
谷歌机器人新闻
站长
广告机器人
冰机器人
MSNBot-媒体
雅虎！
鸭鸭Go
百度
扬德克斯
Facebook
Twitter机器人
博蒂菲

第 3 步 - 验证 Robots.txt 文件

当您单击“检查”时，ETVI 的免费 Robots.txt 验证程序将运行以识别和检查给定网站的机器人元指令。它突出显示所选机器人可以或不能抓取的 URL。

user-agent: * 表示允许/禁止所有搜索引擎爬虫抓取网站

允许：表示该 URL 可以被相应的搜索引擎爬虫抓取

Disallow: 指示Disallow:es 表示某个URL 不能被相应的搜索引擎爬虫抓取

为什么使用 ETTVI 的 Robots.txt 验证器？

用户友好的界面

您只需输入您的网站 URL，然后运行该工具即可。它快速处理给定网站的 robots.txt 文件，以跟踪所有被阻止的 URL 和 robots 元指令。无论您是初学者还是专家，您都可以通过针对所选用户代理（爬虫）的允许/禁止指令轻松定位 URL。

高效的SEO工具

ETTVI 的 Robots.txt 验证器是 SEO 专家的必备工具。只需几秒钟即可针对所有用户代理检查网站的 robots.txt 文件，以跟踪可能损害网站 SEO 的逻辑和语法错误。这是节省抓取预算并确保搜索引擎机器人不会抓取不必要的页面的最简单方法。

免费进入

ETTVI 的 Robots.txt 测试器可让您审核任何网站的 robots.txt 文件，以确保您的网站得到正确的抓取和索引，而无需收取任何订阅费。

无限使用

为了获得更增强的用户体验，ETVI 的 Robots.txt 检查器允许您访问并使用它，而不受任何限制。来自世界各地的人们可以利用这种先进的 SEO 工具来验证任何网站的机器人排除标准，无论何时何地。

了解 Robots.txt 文件

Robots.txt文件是SEO技术的本质，主要用于控制搜索引擎爬虫的行为。因此，请阅读本终极指南，了解 Robots.txt 文件的工作原理以及如何以优化的方式创建它。

什么是 Robots.txt 文件？

Robots.txt文件允许或禁止爬虫访问和爬行网页。将 Robots.txt 文件视为搜索引擎爬虫的说明手册。它提供了一组说明来指定网站的哪些部分可以访问，哪些部分不可访问。

更清楚地说，robots.txt 文件使网站管理员能够控制爬虫 - 访问什么以及如何访问。要知道，爬虫不会直接登陆网站结构，而是通过访问各个网站的robots.txt文件来了解哪些URL是允许爬行的，哪些URL是不允许爬行的。

Robots.txt 文件的用途

A机器人.txt 文件帮助网站管理员使网页、媒体文件和资源文件远离所有搜索引擎爬虫。简而言之，它用于将 URL 或图像、视频、音频、脚本和样式文件保留在 SERP 之外。

大多数 SEO 倾向于利用 Robots.txt 文件作为阻止网页出现在搜索引擎结果中的方法。但是，它不应该用于此目的，因为还有其他方法可以做到这一点，例如应用元机器人指令和密码加密。

请记住，Robots.txt 文件只能用于防止爬网程序通过爬网请求使网站过载。此外，如果需要，则可以使用 Robots.txt 文件通过阻止不重要或未开发的网页来节省爬网预算。

使用 Robots.txt 文件的好处

Robots.txt 文件对于您的网站 SEO 来说既可能是一张王牌，也可能是一个危险。除了您无意中禁止搜索引擎机器人抓取整个网站的危险可能性之外，Robots.txt 文件总是派上用场。

使用 Robots.txt 文件，网站管理员可以：

指定站点地图的位置
禁止抓取重复内容
防止某些 URL 和文件出现在 SERP 中
设置抓取延迟
节省抓取预算

所有这些做法都被认为最适合网站 SEO，只有 Robots.txt 可以帮助您申请

使用 Robots.txt 文件的限制

所有站长都必须知道，在某些情况下，机器人排除标准可能无法阻止网页的抓取。Robots.txt 文件的使用有一定的限制，例如：

并非所有搜索引擎爬虫都遵循 robots.txt 指令
每个爬虫都有自己理解 robots.txt 语法的方式
Googlebot 有可能抓取不允许的网址

可以采取某些 SEO 做法，以确保所有搜索引擎爬虫都无法看到被阻止的 URL。

创建 Robots.txt 文件

查看这些示例格式，了解如何创建和修改 Robots.txt 文件：

User-agent: * Disallow: / 表示禁止每个搜索引擎爬虫抓取所有网页

User-agent: * Disallow: 表示允许每个搜索引擎爬虫抓取整个网站

User-agent: Googlebot Disallow: / 表示仅禁止Google抓取工具抓取网站上的所有页面

User-agent: * Disallow: /subfolder/ 表示搜索引擎爬虫无法访问该特定子文件夹或类别的任何网页

您可以用相同的方式创建和修改 Robots.txt 文件。只需注意语法并根据规定的规则格式化 Robots.txt 即可。

Robots.txt 语法

Robots.txt 语法是指我们用来格式化和构建 robots.txt 文件的语言。让我们为您提供有关构成 Robots.txt 语法的基本术语的信息。

用户代理是搜索引擎爬网程序，您可以向其提供爬网指令，包括应该爬网和不应该爬网的 URL。

Disallow 是一个 robots 元指令，指示用户代理不要抓取相应的 URL

允许是仅适用于 Googlebot 的 robots 元指令。它指示 Google 抓取工具可以访问、抓取网页或子文件夹，然后为其编制索引。

抓取延迟确定抓取程序在抓取网页内容之前应等待的时间段（以秒为单位）。根据记录，Google 抓取工具不遵循此命令。无论如何，如果需要，您可以通过 Google Search Console 设置抓取速度。

站点地图指定给定网站的 XML 站点地图的位置。只有 Google、Ask、Bing 和 Yahoo 承认此命令。

包括 * 、 / 和 $ 在内的特殊字符使爬虫更容易理解指令。顾名思义，这些字符中的每一个都有特殊的含义：

* 表示允许/禁止所有爬虫抓取相应网站。/ 表示允许/禁止指令适用于所有网页

Robots.txt 要闻速览

➔ 子域的Robots.txt文件是单独创建的
➔ Robots.txt 文件的名称必须以小写字母保存为“robots.txt”，因为它区分大小写。
➔ Robots.txt文件必须放置在网站的顶级目录下
➔ 并非所有爬虫（用户代理）都支持 robots.txt 文件
➔ Google 抓取工具可以从链接的网站中找到被阻止的 URL
➔ 每个网站的 Robots.txt 文件都是可公开访问的，这意味着任何人都可以访问它

专家提示：如果紧急需要，请使用其他 URL 阻止方法（例如密码加密和 robots 元标记）而不是 robots.txt 文件来阻止抓取某些网页。

Other Tools

"It's a fantastic resource! Amazing! To quickly and accurately provide information about amp properties of any website, this ettvi google amp checker is a godsend. It's simple to use and quite beneficial."

Bartosz Helano

Frequently Ask Questions

我可以针对所有用户代理验证我的 robots.txt 文件吗？

是的。ETTVI 的 Robots.txt 文件检查器使您能够针对所有用户代理或网络爬虫验证网站的 robots.txt 文件。

robots txt 中的 user-agent * 是什么？

如果您想允许或禁止所有用户代理（爬虫）抓取您的网页，那么您只需在 robots.txt 文件中的用户代理中添加 * 即可。简而言之，* 指定给定的指令适用于所有用户代理。

用户代理 * 禁止是什么意思？

User Agent: * / Disallow 表示阻止所有用户代理或搜索引擎爬虫抓取相应网页。

我应该禁用 robots.txt 吗？

Robots.txt 文件确定或指定搜索引擎爬虫的行为。因此，如果您禁用 robots.txt 文件，那么抓取工具将能够抓取您的所有网页。这不仅会浪费您的抓取预算，还会导致抓取您不希望编入索引的页面。无论如何，这并不意味着您应该使用Robots.txt 文件来隐藏您的网页，以免被搜索引擎抓取工具发现。如果您使用 robots.txt 或禁用它并直接在您不希望被抓取的网页上添加机器人元指令，则完全取决于您。

我可以免费使用 ETTVI 的 Robots.txt 检查器吗？

是的。您可以免费使用 ETTVI 的 Robots.txt 验证器工具。

Stay up to date in the email world.

Subscribe for weekly emails with curated articles, guides, and videos to enhance your tactics.