搜索引擎工作过程非常复杂,这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对SEO人员已经足够用了。
1.发现网站网页
搜索引擎通常通过其他一些链接来寻找到新的网站、网页,所以在搜索引擎发现网站的过程中,就需要增加适当的外链,而且,内链也应当丰富,能让搜索引擎派出的spider从内链中顺利爬行,以便抓取新的页面
2.搜索网站页面爬行和抓取
一旦某个网页被搜索引擎对有所了解,比如百度,就会让某个“站点”去搜索这些网页。你很可能希望整个网站都被搜索。但是,这很可能会由于搜索效率低或者基础结构(阻止站点登陆网站)等因素而受到阻碍,完成数据收集的任务。
3.预处理提取内容
一旦搜索引擎派出的spider登陆某个页面,它就会进行选择性存储,搜索引擎就会考虑到底需不需要储存这些内容。如果它们认为这些内容大多都比较空洞或者说价值不大,那么通常不会储存网页(比如,这些网页或许是网站上其他网页内容的总和)。重复内容的其中一个普遍原因就是合并,这就是索引。
4.排名
用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。