暗网抓取浅析

 发表于 2013-04-16

首先要了解暗网的含义.在互联网上是这样说的:

任何不能通过一次GET或需要通过POST请求才能直接下载的页面,都可以认为其处于暗网中。造成暗网的原因是多方面的:

1. 网络原因不能下载;

2. 内部网站;

3. 动态页面,需要用户身份认证,登录后才能访问;

4. 检索词进行搜索时,才能得到相关的结果的索引列表。

简单的讲,就是没有入口(链接链入)或难以被搜索引擎抓取的网页,都属于暗网范畴。

在互联网上搜索引擎能检索的内容大约只占总内容的千分之二,通过暗网抓取能提供给用户更丰富的结果,极大的提高搜索引擎友好度。

针对暗网进行SEO时,需要注意的事项,归纳了以下几点:

1. 避免将有用的页面存放在暗网中,将这些页面尽量暴露入口。

2. 将可能产生大量相似的暗网页面,要做好对搜索引擎的去重工作。

3. 将可整合的暗网页面整合成频道,增加之间的相关性,更有利于获得排名。

评论 暗网抓取浅析

版权所有,未经许可,请勿转载,违者追究法律责任