很多刚接触SEO的新手站长可能对抓取、索引和收录不太理解,或者是混为一谈,那么这些概念分别指的是什么?
抓取与爬行
通过百度蜘蛛(即机器人)爬行和访问页面,百度搜索引擎每天会分配大量的蜘蛛到各大网站去爬行,当然每个网站的爬行时间都不一样,蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果网站不希望搜索引擎抓取某些文件或者目录时,那么可以设置一个robots.txt文件,蜘蛛就不会去抓取所禁止的网址了。相关推荐:香港主机网站如何制作robots文件
抓取与爬行的方式
海量网站页面及对应的URL构建了庞大的互联网,并且每个网站的结构差异化导致搜索引擎蜘蛛抓取全部页面需要采取较好的爬行策略,由于网站及页面的链接结构异常复杂,而蜘蛛需要尽可能的抓取全部页面,因此需要采取一个好的爬行策略才能实现这个目标,策略分为两种,一种是深度优先,另一种是广度优先。
深度优先采用的是纵向爬行,而广度优先即采用的是横向爬行。深度优先主要是指蜘蛛沿着所发现的链接一直爬行,爬到终点后,又返回第一个页面,沿着另外一个链接再一直往前爬行,比如先从A爬行到A1,A2,A3,当A3爬行完后,又返回A页面,继续爬行B1,B2,B3页面等等。广度优先主要是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直爬行,而是采用从A页面顺着链接爬行到A1,B1,C1页面,直到A页面上的所有链接都爬行完,然后再从A1页面发现的下一层链接,爬行到A2,A3,A4等页面。
收录和索引的区别
针对百度的收录和索引量让很多站长头疼,主要是因为不了解它们之间究竟有何区别,有的站长认为先索引再收录;也有的站长认为索引量是搜索引擎收录到数据库中的数量,应该是先索引再收录;还有的站长一度认为收录和索引是一个概念等等。据百度官方给出的解释是:它们两者之间都有其各自的意义,收录和索引之间是包含关系,先有收录才能够建立索引,收录量大于索引。
收录和索引如何查找
收录是在百度搜索引擎中输入site:域名查出来的结果,比如site:cn.bluehost.com(中间的:号使用英文符号),就可以根据时间去查收录量了。
索引量也可以通过site的方式查询,不过只能看出估值,一般是通过百度站长平台索引量工具查询,索引量大都是平稳增长,最多上下浮动10%。
当搭建好一个网站后,其实站长们也不用每天去关注百度的收录量和索取量,做好整个网站的按时原创更新,网站建设的好,百度蜘蛛自然会来抓取。
相关推荐:哪些因素会影响网站的抓取时间