很多站长在网站后期优化过程中,会涉及到robots协议。robots恰恰又是优化过程中不可或缺的操作。robots是一个协议,这个协议告诉各搜索引擎网站哪些页面可以抓取,哪些页面是禁止抓取,以robots.txt文本形式存放在网站根目录中。
robots非常重要,可以禁止搜索引擎抓取不友好的链接内容,比如死链;也可以屏蔽一些不想被搜索引擎抓取的建站栏目。robots文件可以直接用FTP工具链接网站根目录,或者登录香港主机后台打开网站文件夹,直接上传,而不同的程序也有不同的robots制作方式。
以WordPress程序为例。
WordPress用户群众比较广泛,一方面由于入门基础门槛较低,再一个则是WordPress建站方便快捷,功能插件也是非常多,很大程度上方便了站长的工作。Wordpress制作robots.txt文件比较简单。一般网站存放在香港主机,主机商会提供网站的登录后台及账户密码。(相关阅读《WordPress建站程序适用什么主机》)
打开WordPress网站后台,安装插件“All in One SEO Pack ”,插件包里面有一个robots.txt设置。添加规则选择类型分为两种,即允许和禁止,如果禁止抓取,选择Block,客户端选择为搜索引擎,用*代替是允许或禁止所有搜索引擎抓取。目录路径则为你需要允许或禁止抓取的内容。
有些程序语言,没有WordPress这么方便,就需要自己设置robots文件,格式就是通用的文本,再添加需要禁止抓取的内容。
一般通用的robots.txt文件效果为
“
Sitemap:http://www.xxx.com/sitemap.xml
User-agent: *
Disallow:
”
值得注意的是,Disallow:后面必须空一格,再填写需要禁止抓取的内容。比如:
禁止所有搜索引擎抓取网站内容:
“
User-agent: *
Disallow: /
”
禁止抓取几个栏目:
“
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
”
另外有很多网站做过伪静态,以前存在的动态链接包含如“?”这样的连接符,也可以利用robots协议进行设置禁止抓取
“
User-agent: *
Disallow: /*?*
”
如果优化过程中,能够很好的利用robots协议,会让网站的优化工作更好的展开。一般来说,在香港主机设置robots协议,方式方法与国内主机大同小异,因此,站长在设置robots协议时,登录香港主机后台上传robots.txt文件到网站根目录即可。
相关阅读:为什么要选择WordPress