Robots代码使用操作（笔记）_互联网营销师

一、Robots.txt的由来

robots是一个网站和搜索引擎的第三方协议（早期是用于隐私的保护的）

二、Robots.txt的作用

我们的网站有很多不可抗拒性因素而导致我们的网页质量整体下降。

1、屏蔽一些无内容页面。(例如：注册页、登录页、购物页、发帖页、留言页、搜索的首页、404错误页面（如果你做了的话）提示页http://www.moonseo.net/space-username-%25B5%25E7%25D7%25D3%25C9%25CC%25B1%25EA.html)

2、屏蔽重复页面

屏蔽：抓取但是不会放出来

在谷歌站长管理工具里面直接查看被拦截的页面数量。

3、屏蔽一些死链接页面。

我们只屏蔽那些带有普通特征的页面。他爬不到并不意味着他抓取不到地址。

能否抓取到地址跟能否爬取到是2个概念。

抓取地址，我只需要有一个提供的地址源头就行了。

可以进行处理的死链接是不需要屏蔽的。

4、Robots.txt还可以屏蔽一些较长的路径(长路径：超过网址输入框的）

三、Robots.txt的使用

Robots.txt的建立 robots是一个记事本文件流程：新建文本文档.txt 把这个文件名改成 robots.txt
robots.txt 放在什么地方放在根目录下，用FlashFXP上传上去。
常见的语法

Disallow
Allow
User-agent 定义搜索引擎爬取程序的（指定搜索引擎的爬取程序）
Baiduspider 百度蜘蛛
Googlebot 谷歌机器人
Disallow: / 禁止收录
User-agent: Baiduspider（：后面一定要有空格）
Disallow: /admin/带斜杠告诉百度蜘蛛，你不要来收录我网站的admin文件夹当中的网页。

Allow：允许、不禁止
一般来说不会单独使用，他会和禁止一起使用，他和禁止语法一起使用的目的便于目录的屏蔽灵活的应用
最终的目的是为了减少代码的使用
/seo/ 10万个文件，有2个文件是需要抓取的
User-agent: *
Disallow: /seo/
Allow: /seo/ccc.php
Allow: /seo/ab

联系我们