追踪搜索引擎爬虫的数量

2014-03-06
  • 770
  • 0
          了解爬虫在你的网站上都做些什么对你而言非常重要。多少网页被收录了?爬虫重新抓取网站的频率如何?具体哪些页面被收录了?这些问题也许只有后端的搜索爬虫能够给出答案。
         站内搜索的健康对于网站的可用性至关重要。如果爬虫无法有效地抓取你的页面,那么页面被收录的可能性就不大,如果爬虫无法读取你的页面信息,收录情况同样很差。在某些情况下,爬虫也可以抓取用以解析富媒体格式的XML文件。你的XML文件很可能会通过视频或者音频的副本,或图片的文字描述来指出与你网站相关的部分。这种元数据应该提交给搜索引擎,同时,我们还应该追踪这些提交的数据中有多少页面被搜索引擎收录,有多少没有被收录。
         关于搜索引擎蜘蛛抓取的最后一个要点:有一些方案专门用XML文件提供网站页面的元数据和信息。在这种情况下,你不会关注爬虫是否很好地抓取了你的网站,而是关注XML文件是否很好地呈现了你的网站内容。元数据无需访问具体页面便可表述页面的内容,我们可以使用它在网站中建立起复杂的关系,这种复杂关系可以应用于分类导航和网站的其他元素。
        当站内搜索不使用爬虫抓取作为其主要的数据来源时,应确保你的XML文件中使用了尽可能清晰有力的内容,这一点尤为重要。