一、Robots.txt的由来
robots是一个网站和搜索引擎的第三方协议(早期是用于隐私的保护的)
二、Robots.txt的作用
我们的网站有很多不可抗拒性因素而导致我们的网页质量整体下降。
1、屏蔽一些无内容页面。(例如: 注册页、登录页、购物页、发帖页、留言页、搜索的首页、404错误页面(如果你做了的话)提示页http://www.moonseo.net/space-username-%25B5%25E7%25D7%25D3%25C9%25CC%25B1%25EA.html)
2、屏蔽重复页面
屏蔽:抓取但是不会放出来
在谷歌站长管理工具里面直接查看被拦截的页面数量。
3、屏蔽一些死链接页面。
我们只屏蔽那些带有普通特征的页面。 他爬不到并不意味着他抓取不到地址。
能否抓取到地址跟能否爬取到是2个概念。
抓取地址,我只需要有一个提供的地址源头就行了。
可以进行处理的死链接是不需要屏蔽的。
4、Robots.txt还可以屏蔽一些较长的路径(长路径:超过网址输入框的)
三、Robots.txt的使用
- Robots.txt的建立 robots是一个记事本文件 流程:新建 文本文档.txt 把这个文件名 改成 robots.txt
- robots.txt 放在什么地方 放在根目录下,用FlashFXP上传上去。
- 常见的语法
Disallow
Allow
User-agent 定义搜索引擎爬取程序的(指定搜索引擎的爬取程序)
Baiduspider 百度蜘蛛
Googlebot 谷歌机器人
Disallow: / 禁止收录
User-agent: Baiduspider(:后面一定要有空格)
Disallow: /admin/带斜杠 告诉百度蜘蛛,你不要来收录我网站的admin文件夹当中的网页。
Allow: 允许、不禁止
一般来说不会单独使用,他会和禁止一起使用,他和禁止语法一起使用的目的便于目录的屏蔽灵活的应用
最终的目的是为了减少代码的使用
/seo/ 10万个文件,有2个文件是需要抓取的
User-agent: *
Disallow: /seo/
Allow: /seo/ccc.php
Allow: /seo/ab