一、Robots.txt的由来

robots是一个网站和搜索引擎的第三方协议(早期是用于隐私的保护的)

二、Robots.txt的作用

我们的网站有很多不可抗拒性因素而导致我们的网页质量整体下降。

1、屏蔽一些无内容页面。(例如: 注册页、登录页、购物页、发帖页、留言页、搜索的首页、404错误页面(如果你做了的话)提示页http://www.moonseo.net/space-username-%25B5%25E7%25D7%25D3%25C9%25CC%25B1%25EA.html)

2、屏蔽重复页面

屏蔽:抓取但是不会放出来

在谷歌站长管理工具里面直接查看被拦截的页面数量。

3、屏蔽一些死链接页面。

我们只屏蔽那些带有普通特征的页面。 他爬不到并不意味着他抓取不到地址。

能否抓取到地址跟能否爬取到是2个概念。

抓取地址,我只需要有一个提供的地址源头就行了。

可以进行处理的死链接是不需要屏蔽的。

4、Robots.txt还可以屏蔽一些较长的路径(长路径:超过网址输入框的)

三、Robots.txt的使用

  1. Robots.txt的建立 robots是一个记事本文件 流程:新建 文本文档.txt 把这个文件名 改成 robots.txt
  2. robots.txt 放在什么地方 放在根目录下,用FlashFXP上传上去。
  3. 常见的语法

Disallow
Allow
User-agent 定义搜索引擎爬取程序的(指定搜索引擎的爬取程序)
Baiduspider 百度蜘蛛
Googlebot 谷歌机器人
Disallow: / 禁止收录
User-agent: Baiduspider(:后面一定要有空格)
Disallow: /admin/带斜杠 告诉百度蜘蛛,你不要来收录我网站的admin文件夹当中的网页。

Allow: 允许、不禁止
一般来说不会单独使用,他会和禁止一起使用,他和禁止语法一起使用的目的便于目录的屏蔽灵活的应用
最终的目的是为了减少代码的使用
/seo/ 10万个文件,有2个文件是需要抓取的
User-agent: *
Disallow: /seo/
Allow: /seo/ccc.php
Allow: /seo/ab