页面抓取不全的问题

2014-06-12
  • 510
  • 0
        之前有遇到过客户在问页面抓取不全的问题,为什么快照更新日期是新的,但是页面却是“老”的,其实这是个页面抓取问题,而并非快照问题。
        首先要说下页面抓取不全的原因有以下几种:1.页面代码量比较大  2.页面权重不足  3.网站访问打开速度慢。 其中重要程度不分前后。那么首先说下这三个原因,个人认为最大的问题是在代码量的问题,因为在同等权重和页面打开速度相仿的前提下,代码量大小是制约快照抓取最重要也是最突出的一点,但是之前对于网页快照搜索引擎会缓存多少K的“定论”并非最终定论,只是一个参考。举个例子,针对京东首页来说,网页大小大约为450K左右,针对一家租赁企业,其大小仅仅为160K,但是从网站首页快照来看,京东可以完全收录,而另一家租赁企业则不然,仅仅收录了大约90%的代码。其原因并非仅仅从网页大小就可以决定。更多需要结合上述原因中三点相印证的来看。
        虽然很多人不以为然,但是网页中的打开加载速度也是一个问题,一般来说,现在的网站大多使用CDN加速,虽然这对于我们网站的访问速度可以有很大的提升,但是有些CDN运营商十分不靠谱,针对访问速度会出现几十毫秒到几百毫秒不等的速度差。这也使得网站的访问速度成为决定网站抓取效率的一个因素。