为什么同一篇文章可以被多次收录?

2014-12-30
  • 963
  • 0
        这是我很久之前就有的疑问,在写作“好订网豆瓣项目”推广文章时,同一篇文章多次发布的情况是比较常见的,仅仅是修改了文章中的链接和部分内容而已。不过,令人意外的是,不喜欢爬去相同内容的蜘蛛竟然会抓取其中4/5的文章页面。可是,为什么同一篇文章会被多次收录呢?
        通常来说,影响文章是否被收录的因素主要有四个,分别为网站权重、是否为原创文章、原创文章的质量、网站内部链接布局等等。由于发布的渠道均为豆瓣网,而豆瓣网的网站权重、内部链接布局等因素不会成为影响文章收录的主要原因,因此其他因素才会影响文章的收录情况。不过,当我重新发布已经被收录过的文章(伪原创分数已经降低了)后,依然被百度收录,似乎文章原创度和质量也不是影响因素之一。
        实际上,文章内容的链接也是影响文章收录的主要因素之一。在重新发布文章时,我都会修改文章中的外链、文章首段和尾端。其中,首尾段的差异会给蜘蛛带来一定的误导,而不同的外链也成为吸引蜘蛛爬取的因素之一。