Netconcepts | WEB搜索引擎（一）--工作原理

我们日常生活中经常会用到搜索引擎，用户提交查询，搜索引擎返回查询列表，看似平常不过，实则不简单。本系列博文将介绍WEB搜索引擎原理及基本构成。

一般WEB搜索引擎包括“网络爬虫”、“预处理模块”、“查询服务模块”等主要模块。“网络爬虫”从英特网中抓取网页作为原始网页库保存在搜索引擎服务器，这也是我们在百度等搜索引擎上经常看到的“网页快照”。根据爬虫抓取的原始网页库，“预处理模块”经过“网页分词器”、“分词器”、“索引器”提取网页关键字，剔除广告等信息，建立关键词语网页的索引关系。“查询服务模块”主要服务于用户。首先，用户浏览器输入查询词P（假设），分词器将查询词P根据一定的语义分隔成等小词组或短语组合，再以这些词组匹配数据库的索引词得出查询结果，更进一步，返回给用户的网页结果根据查询条件相关度排名（Page Rank）得到网页排名。

综上为WEB搜索引擎的全部工作过程，后续文章将具体介绍每个模块的具体工作过程。