【SEO教程】让网站收录快速提升的robots.txt写法
发布日期:2019-11-06 17:05   浏览次数:

 

  【SEO教程】让网站收录快速提升的robots.txt写法


  在网站上线之前,我们要做一些操作,其中,有一项是很重要的,那就是robots.txt文件的设置,其实,robots文件的书写也是一种seo技术,有一定的技术含量。那么,下面首擎seo博客就来教大家robots.txt写法,让你的网站收录能够快速稳定的提升。

  什么是robots

  robots是Robots Exclusion Protocol的缩写,意思是"网络爬虫排除标准",通俗的说就是爬虫协议或者是机器人协议,通常用名为robots.txt这样的文件来写这个协议,意在告诉搜索引擎,网站上哪些页面可以抓取,哪些页面不可以抓取。搜索引擎在访问网站时,会先查看robots.txt文件,遵守我们设置的robots协议进行页面的抓取,不过有些搜索引擎可能会不遵守robots协议而随意抓取我们网站的内容,我们将之称为流氓。注意:robots.txt文件必须放在网站根目录中。

  robots常见属性含义

  User-agent:用户代理,用于书写搜索引擎蜘蛛的名称,*代表所有的搜索引擎,写法是:User-agent: /*,注意冒号后面要有一个空格,如果是某个搜索引擎,那么,在冒号后面写上该搜索引擎蜘蛛的名称即可,如百度蜘蛛,则是:User-agent: Baiduspider。

  Disallow:用于告诉搜索引擎不可以抓取的页面。

  Allow:用于告诉搜索引擎可以抓取的页面。

  robots.txt常见写法示例

  1.所有搜索引擎可以访问网站所有页面:

  robots写法:User-agent: *

  Allow: /

  不让访问任何页面则把Allow换成Disallow

  2.某个搜索引擎可以访问网站所有页面:(以百度举例)

  robots写法:User-agent: Baiduspider

  Allow: /

  不让访问任何页面则把Allow换成Disallow

  3.限制某个目录不被任何搜索引擎抓取,以目录a举例:

  robots写法:User-agent: *

  Disallow: /a/

  4.限制某个路径不被任何搜索引擎抓取,以路径123.html举例:

  robots写法:User-agent: *

  Disallow: /123.html

  5.允许目录a中的1.html被抓取,目录a其他页面不被抓取:(部分目录中的页面允许抓取)

  robots写法:User-agent: *

  Disallow: /a/

  Allow: /a/1.html

  6.禁止访问以.html为后缀的路径:

  robots写法:User-agent: *

  Disallow: /*.html(*表示任意字符)

  7.禁止动态页面被抓取:

  robots写法:User-agent: *

  Disallow: /*?*

  8.禁止所有图片被抓取:

  robots写法:User-agent: *

  Disallow: /*.jpg$($表示结束字符)

  Disallow: /*.png$

  Disallow: /*.gif$

  Disallow: /*.bmp$

  Disallow: /*.swf$

  Disallow: /*.psd$

  注意:要将所有的图片格式屏蔽掉

  robots协议写法要点

  1.一个User-agent:代表一个协议,协议可以有多个,但是User-agent: *只能有一个;

  2.所有冒号后面必须有一个空格

  3.隐私文件一定要屏蔽抓取,比如网站后台,还有一些博客插件、模板等文件也要屏蔽抓取。

  更多相关【SEO教程】知识推荐阅读:《【SEO教程】网站被百度降权?科学SEO诊断是关键》

« 上一篇:上一篇:SEO教程:如何做好url标准化
    友情链接:
Copyright ©2020 Power by DedeCms