原创与采集的攻防战

2014-12-25
  • 787
  • 0
        早在2013年百度就不止一次的发表声明要打击采集站点和垃圾信息站点,可见采集站对百度的搜索体验影响还是很大的。来自一份百度的内部数据,互联网上80% 左右的信息都是采集的或者说是复制的,真正原创的网站基本被淹没在采集数据的大海中,想要找到一篇文章的原创出处是不可能的。
        大量采集的缺点:1.导致内容不全面;2.格式的混乱或者出现错别字3.修改作者及重要文章信息;搜索引擎之所以这么重视原创的重要原因就是为了提高用户的体验度,这里的“原创”实际上是原创的优质内容,并非一味的随意原创。
        采集站操作手法:1.人工复制简单修改或者不修改;2.程序批量采集篡改作者及发布时间3.更换标题并人为增加过多关键词
        百度的应对策略:1.编写程序判断,通过转载链接判定原创网站(分析正常的原创文章到采集文章所经过的一切途径,并记录所有因素)2.部分网站人为审核,对于比较重要的文章项目如技术、产品、运营、法律等,百度会组建自己的原创项目组进行人为的审核,这个对于采集站点可是致命的打击,如果运气不好被处罚的话,网站顷刻间就被”拉黑”处理,那就只有更换域名了。
        总结:真相是哪有那么多原创,当然有原创的创造力更好,适当的伪原创也不是最坏的,关键是看起来不是全部采集或者简单的复制。网易、腾讯、新浪、搜狐他们大部分的新闻资讯都是有重叠的,说白了就是大家都是互相转载的,但是他们是行业老大,行业特性所致,所以是不会被一个搜索引擎惩罚的。一个好的采集站一定有好的互动系统,因为有些东西看起来真,那就是真;就像你正在看到的这篇伪原创一样。