有机搜索已成为我们日常生活中不可或缺的一部分。最近的数据显示,近30%的全球网络流量来自在线搜索。?搜索引擎每天抓取和索引数十亿的网络内容,根据相关性(它们与搜索查询的相关程度)在搜索结果中对它们进行排名,从而使它们可供公众使用。您可以使用robot.txt文件设置有关您希望搜索引擎如何抓取和向公众显示您的Web内容的指令。本文将向您介绍您需要了解的有关robots.txt文件的所有信息。
搜索索引从简单的搜索引擎抓取开始。robots.txt文件,也称为RobotsExclusionProtocol?,指示搜索机器人抓取网站——去哪里和不去哪里。用户经常使用该文件来指定搜索引擎不应抓取的页面。
当搜索引擎通过链接或站点地图发现网站时,它会打开网站的robots.txt文件以了解要抓取的页面和不应该抓取的页面。爬虫会缓存robots.txt文件,以免每次访问网站时打开它。缓存文件每次自动刷新数次,定期保持更新。
robots.txt区分大小写并位于域的根目录下,例如www.domain.com/robots.txt。
为什么Robots.txt文件很重要
为您的网站创建一个robot.txt文件有很多好处;例如,您可以使用它来管理您的抓取预算。搜索蜘蛛通常有预定数量的可以在网站上抓取的页面或在网站上花费的时间。如果您管理一个拥有数千个页面的网站,您可以阻止不重要的页面以最大化抓取预算。
使用robots.txt文件的其他好处包括:
使用Robots.txt文件提高可抓取性
现在,如何使用robots.txt文件提高网站的可抓取性?当然,让我们找出答案。
机器人文件包含一个或多个搜索引擎指令块,第一行指定用户代理——您向其提供爬行指令的搜索蜘蛛的名称。
基本的robots.txt文件如下所示:
站点地图:https://yourdomain.com/sitemap_index.xml
不允许:/wp-content/themes/user/js/script-comments.js
不允许:/wp-comments-post.php
上面的robots.txt文件包含三个指令块——第一个指令是针对所有用户代理的,第二个指令是针对Google爬虫的,第三个是针对Bing机器人的。
Allow指令指示机器人抓取指定的URL,即使先前的指令不允许其目录,下面是一个示例。
允许:/wp-admin/admin-ajax.php
robots.txt文件阻止了wp-admin目录,该目录包含敏感的WordPress文件,包括插件和主题,但允许蜘蛛爬行和索引目录中的admin-ajax.php文件。
crawl-delay指令(?crawl-delay:10)告诉用户代理在抓取页面之前等待指定的秒数(例如,十秒)。
该指令告诉搜索引擎更改抓取页面的频率,从而帮助您节省带宽。不幸的是,Google不再识别该指令,但yahoo和Bing仍然识别。
大多数搜索引擎都有不同的爬虫用于不同的目的。例如,一些搜索引擎有用于正常索引、图像和视频的蜘蛛,而像Bing这样的一些搜索引擎甚至有用于他们的广告程序的蜘蛛。
因此,我们按字母顺序整理了一张目前可用的所有常见用户代理的表格。
用户代理区分大小写,因此在设置robots.txt文件时请正确使用名称。

您可以设置robots.txt文件以允许所有搜索机器人对您的整个网站进行爬网和索引。如果您的网站上有私人或敏感文件,我们不建议这样做。
要提供此指令,请将以下行添加到您的robots.txt文件中。
但是如果你希望只允许选定的蜘蛛爬行和索引整个网站,那么指定用户代理,当然,每个用户代理一个指令块。
为防止搜索引擎抓取您的网站并将其编入索引,尤其是在您重新设计网站时,您可以阻止整个网站被编入索引。将此指令添加到您的robots.txt文件以完成它。
为防止机器人抓取您的网站,请指定用户代理。
要阻止网站的特定部分,请为文件夹或页面设置禁止指令,这是一个示例。
该指令阻止所有蜘蛛抓取视频目录及其中的所有内容。您还可以使用通配符(*)和($)等正则表达式来阻止文件组。不幸的是,大多数搜索引擎不识别后者,包括谷歌。
但是这里介绍如何使用正则表达式来阻止一组文件。
通配符(*)阻止图像目录中文件名中包含.jpg的文件,而($)阻止所有以.php结尾的文件。
请注意,disallow、allow和user-agent值区分大小写。在我们上面的两个例子中,搜索蜘蛛将阻止:
Robot.txt文件对比。无索引标签
robots.txt文件指示蜘蛛不要抓取页面,但如果许多网站链接它,可能不会阻止搜索引擎索引该页面。如果搜索引擎发现足够多的指向该页面的外部链接,它会在不知道其内容的情况下对该页面进行索引,从而为您提供如下所示的搜索结果:
但是您可以将Noindex指令添加到您的robots.txt文件中,以防止这些文件出现在搜索结果中。
您还可以将metarobots?noindex标记添加到页面的标题中,以可靠地防止搜索引擎对其进行索引。如果您使用此选项,请避免阻止带有robots.txt的页面以使蜘蛛程序能够找到标签。
您可以使用一些直观的在线工具为您的网站生成一个robots.txt文件,这里只有五个:
将Robots.txt文件添加到您的域
您可以通过帐户控制面板将新创建的robots.txt添加到您的域,方法如下。
第1步:访问您的帐户控制面板
通过登录SPanel访问您帐户的控制面板。访问www.domain.com/spanel/login?,将domain.com替换为您的域名。
如果您以管理员身份登录,则SPanel会将?您带到您的管理仪表板,但用户访问会将您登录到控制面板。在管理仪表板上,滚动到QUICKLINKS并单击ListAccounts?。
单击您希望访问其控制面板的帐户的“操作”按钮,然后从上拉菜单中选择“登录”以获取访问权限。
在控制面板上,单击文件部分下的文件管理器。
打开您网站的基本目录或根目录。根域使用public_html文件夹作为其根目录。
第3步:创建Robots.txt文件
在根目录中,单击新建文件/文件夹图标并选择新建文件。
将新文件命名为robots.txt不带大写,然后单击确定保存
编写您的爬网指令或将它们复制并粘贴到空白文件中并保存。
当您发布robots.txt文件时,请使用Googlerobots.txt测试器工具来验证抓取指令,以确保您不会错误地禁止您不打算阻止的页面。
本文来源:国外服务器--如何使用robots(robotframework读取txt文件)
本文地址:https://www.idcbaba.com/guowai/2727.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1919100645@qq.com 举报,一经查实,本站将立刻删除。



