学习搜索引擎工作原理能更好的指导SEO优化

2013-05-29
  • 885
  • 0

搜索引擎是怎么样工作的呢?了解这个过程,可以指导我们进行更加符合用户体验的SEO优化工作,不论是门户、垂直行业站又或者企业站,在这里统统适用。

首先来说搜索引擎工作的大体流程,然后再来讲解每一部分的功能和实现方式。这里并非特指某个搜索引擎,而是适用于所有搜索引擎的一个流程:页面信息搜集器(也是我们常提到的页面抓取器:spider蜘蛛)、抓取控制器(控制抓取频率)、原始数据库(存储原始的抓取页面)、索引器(预处理过程中,为文档建立正排索引并存入索引数据库等待随时调用)、索引数据库(预处理阶段,消重、净化后根据文档模型提取关键词特征序列,并依据共有词汇假设计算词频及频率等相关性,生成计算权重)、检索器(通过用户查询内容切、分词和返回搜索结果排序)、用户接口(输入搜索指令的用户界面入口)、用户行为日志数据库(用户搜索过程中,搜索习惯、地域分布、搜索结果点击分布、前后搜索词关联性等以每次搜索行为记录的数据集)、日志分析器(通过用户行为分析,赋予搜索结果中优质记录额外权重,当量级突破阶段性阀值后,同时也会影响索引数据库中倒排索引中的分词记录集权值,所谓搜索结果排序调整的参照数据项之一)。

其次,我们来谈谈,SEO过程中,能够影响到的是哪些:预处理阶段的索引器部分和索引数据库部分!那么这部分我们能做哪些,才能影响其结果,就要先了解一下获得原始页面后,到提供给用户服务这个中间的预处理环节,都发生了写什么!

预处理阶段,通常会进行净化消重、关键词的提取、链接分析和网页重要程度计算这4大部分。这里简单介绍大概过程。

净化和消重是要依据DocView模型,对网页进行噪声内容的识别和清除,对页面内的主题和主题相关性内容进行提取,并且消除预划分的搜索网页集合中内容重复的网页,但消重具有时间消重和空间消重两个不同维度的定义和区分,但非本文重点所谈。

经过净化消重之后,页面内的关键词就要进行关键词的提取了,提取之前,先进行关键词的分词,有左向右分词,右向左分词(效率较高)以及最长匹配短语分词等诸多方式方法,建立了分词序列后,再次进行停用词集合的删除,进而得到初步处理后的页面分词序列。此时还没有获得主题,需要对出现的高频词、语义关联词等进行统计,通常一篇文档中的有效词汇量在200-250个左右,得到主题词的词频、出现频率、位置偏移量,并建立正排索引记录。

进行链接分析的过程,会计算页面出度入度的数量以及页面相关性的因素,给予不同的权值计算因数,综合后赋予页面链接权值,参与搜索内容返回结果页面排序的计算。

网页重要程度计算,主要是对前面正排索引处理文档过程中得到的散列表转化为所索引词编码,并进行特征序列的提取,建立倒排索引集合,保存到字典文件,通过索引词的词频和出现频率等属性,建立文档的临时倒排索引文件,并执行多路归并处理后,得到最终的倒排索引文件。

了解到以上内容,我们可以知道,1、门户站点的优化,主要是处理好模板去影响消重和净化,网站结构是极其重要的,同时模板还可以通过调用规则,做到符合用户体验的最佳相关性处理;2、而关键词提取部分,包括序列和语义分析等想要获得高质量内容,就需要人工参与了,这绝对不是采集+伪原创可以完成的,这一点中小企业站点同样适用;3、链接部分,外链就不说了,广泛度相关性等比较容易理解,内链部分,尤其门户和垂直门户站点,通过程序可以批量实现页面内关键词的自然分布和相关性关联部署,可以通过本地建立词库以及约束匹配分算法等方式来实现。

以上仅就通用的几点实用内容谈到的部分,还有更多深入到算法优化去提升用户体验的同时提高搜索引擎权重的方法,但操作性复杂,就需要具体问题具体分析对待了。