搜索引擎到底是怎样工作的

2013-04-01
  • 791
  • 0

随着国内互联网的发展,80%的网民都使用过搜索引擎,那么搜索引擎是怎样工作的呢?我们为什么要使用它呢?本文将讲述它的核心原理,了解下我们从搜索引擎得到了什么。搜索引擎的开发是项技术含量很高的系统工程,我们没必要纠结于技术的细枝末节,搜索引擎最重要的两个工作步骤:第一,抓取网页和建立索引;第二,根据搜索关键词返回高度相关的答案。

爬取网页和建立索引

试着想象,互联网就像是一座大城市里面的地铁系统,在这个系统中有许多停靠站点。这些站点就像是网络上的独立文件,文件形式诸如一张网页、一份PDF文件、一张JPG图片或者其他任何文件形式。搜索引擎首先要做的就是,在浩瀚无垠的互联网地铁上走遍所有的站点,这是它为我们返回答案的前提—先去了解都有哪些答案。而网页或者文件之间的链接,就是蜘蛛所乘坐的地铁线路。

当搜索引擎进行爬行工作的时候,会同时建立对这些页面的索引,将他们抓取到本地硬盘以某种特定的格式储存起来。当用户输入某个关键词进行查询的时候,搜索引擎会在极短的时间内(通常在1秒以内)做出反应,将搜索结果及时输出给检索者。

提供答案

搜索引擎就像是一台能够回答问题的机器。当用户检索时,搜索引擎这时候有两个动作:第一步,根据检索的关键词,在数以亿计的网页中挑选出符合检索条件的结果;第二步,迅速对这些结果进行排名,返回到用户的检索界面。

搜索引擎在判断哪个页面更重要的时候,往往取决于这张页面的流行度,通常是指这个网站拥有更好的活跃度、页面上具有高度集中并且有意义的信息。