搜索引擎蜘蛛的抓取原理

2014-09-02
  • 662
  • 0
          搜索引擎蜘蛛是一种能在网上发现一些新的页面并把文件抓取下来的程序,叫做spider或bot。这些蜘蛛会沿着各种内外链入口访问更多的网站页面,这些网址会被存入数据库等待用户搜索。
          这些文件经过分解分析后以巨大的表格的形式被存入数据库,形成索引过程,其中文件中的关键字字体、颜色、大小、加粗、斜体等属性都会被记录入数据库中。
          当有人在搜索引擎输入相关信息并点击搜索之后,搜索引擎程序就会迅速对搜索词进行处理,从数据库中寻找到所有包含搜索词的网页内容,并按照一定的排名算法计算出哪些页面排在前面,然后按照一定的形式返回到搜索页面,将生成摘要的描述结果在一眨眼的功夫呈现给用户。
          从搜索引擎的抓取原理来看,网页的内外链以及标题关键字、描述的优化是非常重要的。