Typecho网站配置Robots规则教程

什么是Robots协议(Robots.txt)?

   Robots协议(又称爬虫协议、机器人协议等)全称为网络爬虫排除标准(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider重要的沟通渠道,网站通过robots告诉搜索引擎哪些页面可以捕获,哪些页面不能捕获。其目的是保护网站数据和敏感信息,确保用户的个人信息和隐私不受侵犯。搜索引擎需要自觉遵守,因为它不是命令。

为什么需要?robots.txt?

   优化搜索引擎SEO从角度看,robots.txt文件起着至关重要的作用。它告诉搜索引擎如何最好地抓取你的网站。robots.txt文件可以防止搜索引擎访问网站的某些部分,防止重复内容,并为搜索引擎提供有用的提示,如何更有效地捕捉您的网站。robots.txt更改时要小心:因为设置错误可能会使搜索引擎无法访问网站的大部分内容。

robots.txt如何工作?

   搜索引擎机器人访问网站时,首先会找到网站根目录是否 robots.txt如果有文件,则根据文件的内容确定包含范围。如果没有,则默认访问并包含所有页面。此外,当搜索蜘蛛发现它不存在时robots.txt在文件中,服务器上会产生一个404错误的日志,从而增加服务器的负担,所以在网站上添加一个robots.txt文件仍然很重要。百度也将严格遵守robots对于相关协议,要注意区分你不想被抓或收录的目录的大小写。robots文件准确匹配你不想被抓和收录的目录,否则robots协议无效。robots.txt基本语法User-agent:描述搜索引擎robot : 你可以指定这个规则只对baidu 或者google 或其他指定搜索引擎有效 可使用通配符Disallow: 描述一组不想被访问的人URL也就是说,可以使用设置禁止访问的部分url,也可以使用相对路径,可以是单目文件,也可以是整个文件夹,定类型。Allow: 描述一组希望被访问的人URL也就是说,设置允许访问的部分,但由于默认允许,这种语法通常是合作的disallow用它来完成 如除了xxx.html所有这些设置都不能在目录下访问。需要注意的是,allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。

Sitemap:指示蜘蛛去爬取网站的sitemap文件。通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符。如何区分你的网站是否配置了?robots.txt第一种方法:访问网站 http(s):你的域名/robots.txt第二种方法:通过 [百度站长工具] 检测如何正确编写保护网站隐私的方法robots.txt我们想要的效果是:所有搜索引擎都必须遵循我的协议,禁止蜘蛛抓取我的背景地址和Typecho安装路径引导蜘蛛抓住我Sitemap

 然后我们可以这样写,在网站根目录下新建一个robots.txt文件,内容如下*User-agent:

Allow: /*.html$

Allow: /usr

Disallow: /admin/

Disallow: /install/

Disallow: /var/

Disallow: /config.inc.php

Disallow: /install.php

声明 本站部分资源来自网络,如有侵犯你的权益请联系管理员,仅供网友学习交流,若您喜欢本文可附上原文链接随意转载。无意侵害您的权益,请发送邮件至 [email protected] 或点击右侧 私信:壹一阁 反馈,我们将尽快处理。

给TA打赏
共{{data.count}}人
人已打赏
TypeCho主题分享

Typecho极简风格开源主题Echo

2022-5-15 13:06:28

游戏攻略

原神3.0下半卡池有什么(3.0下半卡池介绍)

2022-11-4 18:22:57

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索