风之力科技
股票代码:781340
400-718-5885或13605745691
service@nwpit.com

技术资讯

20Nov2015
点击

搜索引擎协议文件robots

    搜索引擎主要是靠蜘蛛小弟去抓取你网站的内容,我们的网站就像自己的家一样,搜索引擎蜘蛛就是客人,那我 们有没有权限不让它进来,或者说只让它进客厅不能进卧室,这些条件其实都能够实现的,因为作为站长你拥有这个网站的最高权限,当然了我们没必要全部屏蔽 掉,因为做网站就是想让它有排名,让它茁壮成长的,但是对于一些机密的东西,我们还是需要保持自己的隐私的,比如你网站的后台登陆,你的网站模板,如果你 是一个交流平台那么注册会员信息是不是需要屏蔽掉。


  SEO

一、Robots文件的概念

    Robots文件就是你的网站与搜索引擎之间的一个协议,这个文件并不是给用户看的,而是给搜索引擎蜘蛛看的,相当于一个明令条款,在这个文件中你 可以写上哪里允许抓取,哪里不可以。而搜索引擎蜘蛛来到一个网站的时候首先要访问的就是Robots文件,通常搜索引擎蜘蛛是比较遵守规矩的,但是偶尔它 也会耍流氓,不管你禁不禁止都去抓取,这种情况也是有的。这里要注意的是从建设网站的角度来说Robots文件并不是一个必须的东西,但是从优化的角度来 讲是非常有必要的,因为我们要把对我们排名不利的文件都屏蔽掉,不让搜索引擎抓取,比如说后台数据库文件、模板、插件文件等。

SEO

二、Robots文件如何书写

1、符号


(1)User-agent—定义搜索引擎类型,大家都知道搜索引擎有许多,我们robots文件既然是写给搜索引擎看的,那么肯定要定义类型了,你这个是写给哪个搜索引擎看的。

(2)Disallow—定义禁止抓取收录地址,这个就是写你不想让搜索引擎抓取的地方。

(3)Allow—定义允许抓取收录的地址,希望搜索引擎去抓取的地方。

(4)*  —-匹配0或多个任意字符

(5)$  —-      结束符


2、搜索引擎蜘蛛名称

百度蜘蛛:Baiduspider、谷歌蜘蛛:Googlebot、360蜘蛛:360Spider、SOSO蜘蛛:Sosospider、宜sou蜘蛛:EasouSpider、Yahoo的蜘蛛:Yahoo Slurp

有道蜘蛛:YoudaoBot、搜狗蜘蛛:Sogou News Spider、MSN蜘蛛:msnbot、一搜蜘蛛:YisouSpider、一淘网蜘蛛:EtaoSpider


3、Robots文件书写

    写robots文件你必须了解网站目录下面的文件都是什么,哪些是需要保留的,哪些是给用户看的,要清楚的认识,这个是必须要谨慎对待的,如果你错 误的书写可能会导致你的网站降权,收录困难等问题。这里我给大家写两个万能的robots文件,一个是织梦企业网站的,一个是wordspress博客类 的个人网站。

(1)织梦企业站点Robots文件书写

    首先我们先看一下织梦文件后台哪些是需要屏蔽的,我们可以看到织梦程序有很多文件夹,我们需要找到的就是隐私内容、模板文件、后台、数据等,比如 data 系统缓存和配置文件、dede 后台、images 图片、include 程序文件、install 安装文件、member 会员信息文件、pius 插件文件、templets 模板文件,这样我们是不是很清楚我们需要屏蔽掉哪些了,下面我们需要新建一个空白的robots.txt文档,

User-agent: *      ( 在文档开始先定义我们搜索引擎对象,这里应该注意的是首字母要大写,冒号后边是空格,“*“表示对所以搜索引擎都有效。)
Disallow: /data   (屏蔽掉我们网站系统缓存和配置文件,这里同样首字母是大写,冒号是英文状态下的,冒号后边是空格然后/data )
Disallow: /dede   (屏蔽掉我们网站的后台,注意事项也是首字母大写,冒号是英文状态下,冒号后边空格/dede )
Disallow: /member  (屏蔽掉会员账号信息,保护隐私,首字母大写,冒号是英文状态下,冒号后边空格/member )
Disallow: /plus   (屏蔽掉网站的插件,优化网站比较有利,冒号是英文状态下,冒号后边空格/plus )
Disallow: /templets  (屏蔽掉网站模板文件,也是为了优化网站,冒号是英文状态下,冒号后边空格/templets )



(2)WordPress个人博客Robots文件书写

    博客的书写也是跟织梦企业网站大同小异,步骤也是一样的,这里就不多说了,直接给大家写出来,你可以使用直接复制下面的代码,把文字删除保存就可以了,同样是新建一个空白的robots.txt文档
User-agent: *                  ( 同样是适用于所有搜索引擎)
Allow: /                          (允许访问全部)
Disallow: /wp-admin      (禁止访问后台)
Disallow: /wp-includes   (屏蔽程序目录)
Disallow: /wp-content   (屏蔽WordPress模板)
Disallow: /wp-login.php (屏蔽后台登陆)

    这里要注意的一点是允许访问全部跟禁止访问某些地方是不冲突的,你可以理解成一个补充,就是除了禁止访问之外的所有内容都是可以访问的,用时搜索引擎蜘蛛是看最详细的那个规则。

三、Robots文件提交

当你的robots文件写完后,如果你检查没有错误的时候你就可以提交了 为了尽快的使我们网站收录排名,做好之后详细检查没有问题,尽快提交。