robot文件如何使用

时间:2017-10-11  来源:至成科技  作者:西安网站建设  点击次数:103  分享:

    我们怎么样来设置我们的网站,让网络爬虫什么应该抓取,什么不应该抓取的,像这样的话,我们就可以给我们的网站设置robots协议,来让网络爬虫什么应该抓取,什么不应该抓取,而在这篇文章中,让大家来知道新手必知的SEO基础五:robots协议,现在,就和西安网站建设领导者至成科技一起看看吧。

    robots的介绍:

    robots其实,就想当于一个协议,它其实就是用来告诉网络爬虫什么可以抓取什么不可以抓取的,学过SEO的用户都知道,搜索引擎它本身其实是没有内容的,它主要是派出大量的网络爬虫来抓取各大网站的内容。那么,我们网站有些内容是允许网络爬虫抓取的,有些内容是不允许网络爬虫抓取的,所以我们就要写一个规则,来让搜索引擎来遵循这个规则,而这个规则就是robots协议。

    其实,robots协议也可说是就是相当于一个公司门口的公告一样,而这个公告上写着,什么人可以进入,什么人不能进入。一般情况下,这个robots协议都是使用.txt文档来结尾的,而这个robots协议是放置在,我们网站的根目录里的文件下方,搜索引擎派出的爬虫访问到我们的网站的第一站就会看到robots这个协议,那里不让它抓取,那里让它抓取

    robots的功能

    robots的功能它可以屏蔽一些无用的信息或者说一些非常珍贵的信讯,这样就不自于搜索引擎你网站的内容全部都给你抓取过去。同时,如果你屏蔽掉这些无用信息的话,搜索引擎它就节省了我们网站服务器的带宽资源了。而且,搜索引擎会直接抓取,我们网站有用的信息,从而提升我们网站的收录。

    robots操作

    在上面中我们了解了robots协议的介绍和功能,那么这里,就说说怎么样来操作,怎么来操作呢?

    首先robots协议它可以分为两种:

    1、没有屏蔽爬虫的网站robots协议,而它的代码就是:

    User-agent:*这个代码是允许所有爬虫来访问

    Disallow:/wp-admin/这个代码是不允许爬虫访问这个目录的

    Disallow:/wp-includes/这个 代码也是不允许爬虫访问这个目录的

    这个,就是没有屏蔽爬虫的网站robots协议,那么,要怎么来操作呢?首先我们要知道,robots它就是一个.txt文本的,我们可新建一个.txt文本,在把这组代码写在文本中,接着在修改一下文本名字,修改成robots.txt就行了,然后,在通过FTP上传到我们网站的根目录就可以了。

    2、屏蔽百度爬虫的网站robots协议,而它的代码是:

    User-agent:Baiduspider

    Disallow:/

    User-gent:baiduspider

    Disallow:/这两种代码的意思就是,不允许百度来爬取它

    而它的操作跟上面也是一样的,同样也是要建立一个文本文档,在把这个代码放在文本文档中,在修好改文本文档的名字,修改成robots.txt就行了,同样,也是通过FTP上传到我们网站的根目录中,就可以了。

    还有一种操作方法,就是通过百度站长工具来对我们网站进行设置robots协议的

    robots就是一个协议,是告诉搜索引擎派出的爬虫什么可以抓取,什么不可以抓取的。而robots协议,他有一个功能,就是它可以屏蔽掉一些无用的信息或者说一些非常珍贵的信讯,这样做的好处就是给我们网站节省了服务器带宽资源了。同时robots协议的,操作也是很简单的,新建一个.txt文本文档,就把相应的代码放置在文本文档就中行,在修改一下,文本名字,修改成robots.txt就行了,在通过FTP上传到我们网站的根目录中,就可以了。如果您需要更加专业的互联网建站服务,来西安网站建设领导者至成科技,相信我们的服务,一定能够让您满意。

西安网站建设-至成科技官方微信

专注互联网综合服务解决方案

探索互联网行业前沿资讯

及时获取最新优惠信息

官方微信

即刻关注 共享精彩

扫一扫

让我们做得更好!

微信ID:wxzcit

www.xazcit.com

全部评论:0条


版权所有: 西安至成信息科技有限公司
本文链接: http://www.xazcit.com/5748.html