网站优化如何制作robots.txt文件
发布日期:2019-11-05 16:32   浏览次数:

网站在做了伪静态后的动态网址不希望再被收录,或者是网站后台程序也不希望被搜索引擎收录,亦或是网站内存在了大量的死链接页面。面对这些情况的网页,我们都不希望搜索引擎收录页面,那么需要使用robots.txt文件来屏蔽搜索引擎蜘蛛抓取。这个文件用于指定蜘蛛在网站上的抓取范围。在文件中可以声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

前期准备:robots常见英文单词的运用网站一个

    方法1

    步骤一:了解robots.txt文件

    搜索引擎蜘蛛在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件。robots.txt文件作用是禁止搜索引擎抓取网站中某些内容。文件名必须是robots.txt(小写字母)。存放位置必须在空间根目录下,百度的robots.txt文件允许百度蜘蛛抓取网站部分页面。如网站允许抓取所有文件,可以不需要使用此文件。

    2

    步骤二:Robots.txt文件常用函数

    1、User-agent:制定规则适用于哪个蜘蛛。“*”代表所有搜索引擎。针对某个搜索引擎,则写该搜索引擎蜘蛛名称。

    3

    2、Disallow:告诉蜘蛛不要抓取哪些文件和目录。

    例如上图淘宝robots.txt所示禁止

    User-agent: Baiduspider

    Disallow: /

    Disallow还可以表示允许抓取所有文件,代码如下:

    User-agent: Baiduspider

    Disallow:

    注意:两段代码只差了一个斜杠“/”,但是意思是完全相反,切记。

    4

    3、Disallow禁止具体某个文件或目录,则写出该文件的绝对地址,不带域名。代码如下。意为禁止

    User-agent: Baiduspider

    Disallow:/web/abc/xxx.html

    5

    4、Disallow禁止多个文件,需分行描述。禁止同一类型网址网页,则可以使用通配符。代码如下,意为禁止

    User-agent: Baiduspider

    Disallow: /index.php?*

    Disallow: /pop/*.html

    Disallow: /*.jpg$

    6

    根据上述规则,.***.com/index.php?search=25和.***.com/pop/123.html两个网页将不会被7

    Allow:告诉蜘蛛应该抓取哪些文件和目录。

    Sitemap:告诉蜘蛛XML网站地图在哪里。代码如下,允许所有的搜索引擎访问,并告知网站地图地址,网站地图域名为全网址出现。

    User-agent: *

    allow:.***.com/1.html

    Sitemap: .***.com/sitemap.xml

    8

    步骤四:robots.txt文件其他应用

    robots.txt文件用法举例

    9

    步骤五:robots.txt文件上传服务器

    将robots.txt文件上传至远程空间根目录下即可。

    END
注意事项各种代码不要加错,disallow和allow的区别robots.txt文件上传到网站根目录下
« 上一篇:上一篇:如何对自己的网站进行SEO诊断
» 下一篇:下一篇:响应式网站对SEO优化有什么影响
Copyright ©2020 Power by DedeCms