大多数知名搜索引擎的搜索索引都有数万亿页,比如谷歌、百度、Bing。因此,让我们讨论排名算法之前,让我们先了解Web索引的构建和维护机制。bluehost美国主机分享的这个流程是专门针对Google的,但是其他网络搜索引擎比如百度、Bing可能就很相似了。还有其他类型的搜索引擎,比如只从其网站展示结果的亚马逊、YouTube、维基百科。
步骤1、网址
所有的事情都从已知的URL列表开始。谷歌通过各种流程发现了这些,但最常见的三种是:
反向链接
谷歌已经有e已经有一个索引包含了数万亿个网页,如果有人把指向你其中一个页面的链接从其中添加出去,就可以从中找到。推荐阅读:《谷歌搜索怎么获得数百万结果》
您可以使用站点资源管理器,使用Ahrefs网站管理员工具免费查看您网站的反向链接。
- 为Ahrefs网站管理员注册免费工具账号。
- 在站点资源管理器中粘贴你的域。
- 转到反向链接报告。
我们的爬虫是第二个活跃的爬虫,仅次于Google,所以你应该在这里看到一个相当完整的反向链接视图。
站点地图。
网站地图列出了你网站的所有重要页面。如果你向Google提交网站地图,它可能会帮助他们更快地找到你的网站。
提交自URL。
Google还允许单个URL通过GoogleSearchConsole提交。
步骤2、爬行的步骤
电脑机器人(如Googlebot)访问并下载发现的页面,被称为蜘蛛。
请注意,Google并不总是按照他们发现页面的顺序来抓取页面。
Google排队的URL根据几个因素,包括:
- PageRankURL。
- 多长时间更改一次URL。
- 不管是不是新的。
这一点非常重要,因为这意味着搜索引擎可能会在其他页面之前抓取你的某些页面并将其编入索引。如果你的网站很大,搜索引擎完全抓取可能需要一段时间。推荐阅读:《提升网站转化率的3个心理学技巧》
步骤3、处理
加工是谷歌从抓取页面中了解和提取关键信息的地方。谷歌之外的过程中的每一个细节都没有人知道,但提取链接和存储内容进行索引是我们理解的重要部分。
为了充分处理谷歌,谷歌必须渲染页面,这是谷歌运行页面代码的地方,了解它如何找到用户。
也就是说,有些处理会发生在渲染前后——如图所示。
第4步、索引
索引是一个被称为搜索索引的大型数据库,被添加到未来从爬网页的处理信息中。这本质上是一个包含数万亿页面的数字图书馆,谷歌的搜索结果来自这些页面。
这一点很重要。当你在搜索引擎中输入查询时,您并不是直接在互联网上搜索匹配的结果。您正在搜索搜索引擎的网页索引。如果网页不在搜索索引中,搜索引擎用户将无法找到它。这就是为什么你的网站在Google、百度和Bing等主要搜索引擎中如此重要。推荐相关阅读:《Google搜索引擎优化与百度SEO有什么区别》