搜索引擎偏好说明—大家好,我是爬虫

2014-02-10
  • 1064
  • 0
        大家好,我是爬虫,很多人都想知道我的喜好,根据我的喜好来做相应的调整提升收录与排名,实际上,我并不喜欢大家因为我做过度的做优化,我最喜欢的还是一个真正用心去做并能给用户带来价值的网站。当然也确实有一些方法可以让我和网站有更好的交流,以便我更好更快的抓取,从而为互联网带来更高的价值。
        我的工作流量是这样,爬取-索引-排名。
        爬取
        我一般是从权重最高的网站开始爬取,大家都知道我是通过链接爬取链接的,如果你有一个不错的网站,我希望你能有一些不错的外链,我把外链当作是别人对这个网站的投票,投票数越多,投票的网站越权威,我对这个网站的印象分就会越高,但是有一点要提出,我希望外链是自然形成的而不是人刻意为之,我最讨厌购买链接的行为,如果我发现哪个网站有这样的行为,我就会惩罚它。
        通过外链,首先我会看到这个网站的URL,我比较喜欢静态简短的URL,简短的网址更容易让人记住,静态的网页更方便我抓取,我不太喜欢含好多参数或含大写字母的网站,我会区分大小写,如果你有2个不同的网址,里面有相同的内容,我会把这2个网址当成不同的网页,而且我会根据自己的经验K掉其中一个。
        进入网站之后,我还是遵循老规则,根据链接爬取链接,我希望网站的层级越浅越好,如果你有重要的内容层级太深,我可能就抓不到了。
        除了内部链接外,加载速度,代码也会影响我的抓取效率。
        还是那句话,我在某网站的停留时间有限,加载速度越快,意味着我在单页面停留的时间越短,也意味着我可以在网站中抓取到更多的链接。
        至于代码,有几种代码我现在还不能很好的爬取,JS,iframe,我现在功能还不是那么完善,希望大家理解。我希望大家可以把冗长的JS代码,及CSS代码外调,这样我可以在更短的时间内抓取到更多的链接。
        另外我也给站长们提供了一些快捷通道,比如sitemap,站长们只要把链接按照规定好的格式放到sitemap里面,并在robots文件中告诉我,我就可以去快速的抓取了。
        作为爬虫,每天要爬那么多链接,我真的很累,为了加快工作效率,我会做一些标记,比如,我发现某个网站总是在9点更新,其他时间不更新,那么我就会做一个标记,以后每天9点来抓取;如果有的网站总是不更新,我会标记304,告诉自己这个网站和上次没有变化,如果很长时间都是304,我就会减少来这个网站的时间,直到不来;如果有的网站不稳定,我会标记500,当然我也会偶尔来看看,如果几次之后一直是这样,我就发誓以后再也不来了。再比如,有的网站错误链接比较多,返回404,我就会从我的索引库中删除,这样以后我再碰到这个链接就不抓了,以节省我的时间。对错误页面特别多的站长,我也想补充一句,一定要返回404,并且制作死链接sitemap,这样可以把机会留给更重要的页面。其实,我会在网站日志中留下我的抓取痕迹,我非常希望人们可以通过网站日志了解我的抓取行为是否正确,并相应的调整加快我的工作效率,很可惜不是所有的站长都了解这一点。
索引。
        抓取之后我要好好的审核一下这些页面,如果质量合格,我就会把这些链接放到索引中,用户就可以通过查询关键词来找到这个网页。这也就是人们常说的收录。
        一个页面是否被收录,和这个页面的质量和权重有很大关系。
        一般说来,我会先判断这个页面的原创度,如果页面和我的索引库中的某篇文章相似度很高,一般说来,只要有38字是完全雷同,我就判断其为重复页面,我就很可能不收录了。
        考虑到现在的伪原创工具很多,我还会再判断一下页面的可读性,目前我还不够智能,但是我可以根据用户的行为,比如点击率,用户评论,页面跳出率等初步的判断一下页面质量。
        当然也会有例外,如果这个网页权重很高,我也会降低对页面质量的要求。这里要说明一下,每个页面也是有权重的,这个权重和首页的权重,页面导入链接,页面导出链接都有很大的关系。要知道,某个网页的导入链接也就是投票越多,网页的权重也会越多,但是,如果页面又导出了大量的链接,剩下的权重也会越少。
排名。
        总的说来,相关性和页面权重是我判断排名的最重要的因素。
        那么我如何判断页面的相关性呢,首先是这个页面的锚文本,也就是别人给这个网页加的链接文字。如果说链接是投票,那么链接上的文字就是投票者对你的评价。相比我自己的判断,我更相信别人对你的评价,当然,随着我的功能的不断完善,我也会越来越相信自己的判断能力。
        我自己是这样判断页面相关性的,Title,Description,这2个也会出现在搜索结果中。说明一点,Keywords我现在不太关注了。
        我一般认为H1标签是页面最重要的关键词,所以推荐站长们在页面最重要的关键词加H1标签,强调,是最重要的哦,只要一个就好了,多了还是影响我的判断。
        页面关键词密度是我判断页面相关性的标准之一,这一点早已不是秘密,也正是因为这个,很多站长进行关键词堆砌或者隐藏关键词,其实,我真的很不喜欢这样欺骗或者投机取巧的行为,一般说来,一篇800字的文章包含关键词4-5个就足矣了。
        页面权重之前提到了,就不多说了,但不说不代表不重要。大家明白我的初衷就好,首先搜索结果要有相关性满足用户的要求,其次,我要把更好更权威的页面放在前面。
我是爬虫,你了解我了吗?欢迎站长们与我交流。