深圳网站建设公司分享:robots文件常见知识
对于很多刚做网站优化的SEO新人来说,robots文件似乎是可有可无的。但是要知道,搜索引擎蜘蛛爬行的第一个文件就是robots文件。因为robots文件可以告诉他,那些可以抓取,那些不可以抓取,哪个目录可以爬行,哪个目录不可以爬行。如果在做优化的时候,忽略掉了robots文件文件,很容易让自己吃亏的。
今天,小编就根据自己过往的网站优化经验,为大家分享一下robots文件的一下知识吧。
*是指所有的意思
User-agent
爬虫抓取时会声明自己的身份,这就是User-agent,如果这个规则适用于所有搜索引擎的话,写法:User-agent:* 如果单独适用于百度的话User-agent:Baiduspider
(附一些搜索引擎的名字:百度Baiduspider|谷歌Googlebot|360蜘蛛:360Spider|SOSO蜘蛛:Sosospider|雅虎蜘蛛:Yahoo!|有道蜘蛛:YoudaoBot|搜狗蜘蛛:Sogou News Spider|MSN蜘蛛:msnbot/msnbot-media|必应蜘蛛:bingbot/compatible|一搜蜘蛛:YisouSpider|Alexa蜘蛛:ia_archiver|宜sou蜘蛛:EasouSpider|即刻蜘蛛:JikeSpider|一淘网蜘蛛:EtaoSpider)
搜索引擎爬虫在爬行robots文件时,会先声明自己的身份,这就是User-agent。如果说,这个文件是所有搜索引擎都可以访问的话,就应该写成:User-agent:*。如果是单独允许某个搜索引擎爬行的话,如单独允许百度爬行,就应该写成:User-agent:Baiduspider。
(在这里顺便为大家分享一些搜索引擎的名字:百度:Baiduspider、谷歌:Googlebot、360蜘蛛:360Spider、SOSO蜘蛛:Sosospider、雅虎蜘蛛:Yahoo!、有道蜘蛛:YoudaoBot、搜狗蜘蛛:Sogou News Spider、MSN蜘蛛:msnbot/msnbot-media、必应蜘蛛:bingbot/compatible)
DisallowDisallow 列出的是要禁止抓取的的网页和规则,后面用/代表层次关系
Disallow:/(代表着禁止抓取网站所有内容)
Disallow:/abc(禁止抓取abc及其层次下的内容)
Disallow:/abc/(禁止抓取abc层次下的内容,但是允许抓abc)
Disallow:/*.png(禁止抓取png的图片,其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow:/*.PPT)
Disallow:/abc/*.png(禁止访问abc层次下的PNG图片,其他格式也是)
Disallow:/*?*(屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)
Disallow:/abc/*?*(只屏蔽abc层次下的动态地址)
Disallow:/*?/(屏蔽动态层次下的内容,比如有些文章或栏目是网址/?14125这样URL,这样可以让抓取文章,也可以屏蔽后面内容)
Disallow:/abc/*?/(屏蔽abc栏目下的动态层次下的内容)
其他的按照这个思路灵活使用就行了
Allow
Allow代表允许访问抓取的意思。
Allow一定放在disallow的前面才能不受disallow的影响,比如禁止所有动态后,想要排除一个栏目,写法如下:
Allow:/abc
disallow:/*?*
其他的写法参考disallow的逻辑。
sitemap
这个蛀牙是用来告诉蜘蛛,网站的地图在哪里,写法如下:
sitemap:网址/sitemap.xml
Crawl-delay
这个是用来控制搜索引擎抓取频率的。一般来说,搜索引擎过于频繁的来网站抓取,会对网站服务器造成一定负担的。所以,我们需要用这个来控制搜索引擎的抓取频率。写法如下:
User-agent:Baiduspider
Crawl-delay:10
这句话的意思是:百度你抓取的频率太高了,抓取一次后,需要等10秒才能进行一下车抓取。
还有就是不让显示快照:
在你不想展示快照页面的head标签中加入 meta name=“robots” content=“noarchive”(禁止所有搜索引擎产生快照)
在你不想展示某个搜索引擎出现快照页面的head标签中加入 meta name=“360Spider” content=“noarchive”(禁止360产生快照,name后面的换成蜘蛛名字即可)
看到这里,是不是对robots文件有了一定了解了。其实,robots文件还有很多知识点的。希望下次小编有机会分享给大家吧。