百度收录须知

2013-12-12
  • 909
  • 0
1. 服务器 服务器的稳定性不但关系到用户体验度问题,还对搜索引擎的爬取造成很大的影响,长期不稳定的服务器会增加造成搜索引擎爬取压力,出现不能有效爬取页面,降低搜索引擎友好度等情况,从而出现收录下降、排名下降的情况。 2. 搜索引擎爬取 很多时候页面没有被搜索引擎收录的原因是:页面根本没有被爬取。导致这种情况出现的原因主要有3点:robots文件设定、页面层级过深、页面入口不足。 Ø Robots文件:全称是网络爬虫排除标准Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,所以对Robots文件的设定是需要遵循正确书写格式、合理的爬取需求的标准。 Ø 页面层级过深除了指网站物理层级结构外也包含逻辑层级结构,而网站URL结构就属于逻辑层级结构范畴之中,以URL结构为例:方便记忆、层级简短、长度适中的静态URL是被搜索引擎所喜爱的。 Ø 页面入口不足是导致页面不被抓取得常见原因,对于重点页面的入口应当安排多入口、易爬取位置的入口。 3.  网站结构 网站结构分为两部分:物理结构、逻辑结构; Ø 而满足搜索引擎收录的最基本点也是从这两点开始,首先就是保障物理结构简单、不宜过深、方便查找,物理结构的影响主要表现在“请求返回时间”上,导致物理结构复杂的因素主要是系统漏洞原因生成的不必要层级; Ø 其次逻辑结构要清晰合理,容易被搜索引擎所理解并且方便用户记忆、传播、分享;逻辑结构主要表现在页面目录结构及URL结构,如果目录结构过于复杂(例如:用户点击一百次才能到目标页面和用户点击3次到达目标页面的区别)会影响到用户体验度和搜索引擎友好度,URL结构(以“/”为划分标志,不宜超过4层结构)复杂会不利于搜索引擎收录和用户记忆、传播。 4. 页面内容 目前搜索引擎对于网站内容的判断直接关系到页面是否能够被收录、收录后能否有一个良好排名的重要标准,对于页面内容的判断依据主要有4方面:1.内容原创度2.内容新鲜度 3.关键词分布4.更新频率; Ø 内容原创度:搜索引擎对重复内容是比较“反感”的,所以,原创度较高的内容也一定意义上被搜索引擎所喜欢,从而易被收录; Ø 内容新鲜度:“新鲜度”主要指内容的热门程度和时间性,对于近期发生的“大事件”“热门事件”等都是容易被用户搜索引擎双重关注的; Ø 关键词分布:除了以上两点外,关键词的分布也对搜索引擎是否收录启到决定性的因素,因为搜索引擎分辨页面内容的重要因素之一就是关键词,但是需要注意的是:过分的关键词堆砌行为会被搜索引擎视为“作弊”行为,所以关键词的分布不能只追求数量,一般来说800字以内的软文,关键词出现最多不要超过8次,而且要均匀分布在软文中。 Ø 网站更新频率:关系到搜索引擎爬虫在网站爬取频率,一定意义上说网站的更新频率是与爬取频率成正比的,而搜索引擎爬取喜欢有规律的更新。 5. 网站链接 网站链接分为:内部链接和外部链接; Ø 内部链接结构主要有2方面作用:网页间权重传递和“入口”,内链结构是否合理直接关系到页面能否被搜索引擎爬虫抓取和收录。 Ø 外部链接是为网站提供权重和入口的重要组成部分,外链分为单向链接(单方向导出或指入网站的链接)和交互链接(相互指向的彼此网站的链接,多称为“友情链接”),而百度目前对外链的关注不止表现在数量上,更重要的是外链的质量,否则大量的低质量外链堆砌只会给网站带来毁灭性的灾害。 6. 网站地图 网站地图分为:HTML网站地图和XML网站地图; Ø 两者的目的都是为了帮助搜索引擎了解网站结构,从而顺利爬取和收录网站页面,所以合理的网站地图也对网页能否被收录起到决定性作用。 7. 代码 代码主要包含两部分内容:代码类别、代码大小; Ø 代码类别:网站代码类别、结构很大限度上也决定某些部分是否能够被搜索引擎所抓取,如:iframeJava Script等部分代码,目前还不能被“百度”搜索引擎有效的理解、抓取,所以需要尽量减少这部分代码的使用; Ø 代码大小:除代码类别外,页面代码量大小也是关系到网页是否能够爬取完全的因素,过大的代码量也会导致搜索引擎抓取不完全的情况出现,从而导致部分入口未被爬取到,致使这部分入口对应的页面不能爬取、收录。

1. 服务器

服务器的稳定性不但关系到用户体验度问题,还对搜索引擎的爬取造成很大的影响,长期不稳定的服务器会增加造成搜索引擎爬取压力,出现不能有效爬取页面,降低搜索引擎友好度等情况,从而出现收录下降、排名下降的情况。

2. 搜索引擎爬取

很多时候页面没有被搜索引擎收录的原因是:页面根本没有被爬取。导致这种情况出现的原因主要有3点:robots文件设定、页面层级过深、页面入口不足。

Ø Robots文件:全称是网络爬虫排除标准Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,所以对Robots文件的设定是需要遵循正确书写格式、合理的爬取需求的标准。

Ø 页面层级过深除了指网站物理层级结构外也包含逻辑层级结构,而网站URL结构就属于逻辑层级结构范畴之中,以URL结构为例:方便记忆、层级简短、长度适中的静态URL是被搜索引擎所喜爱的。

Ø 页面入口不足是导致页面不被抓取得常见原因,对于重点页面的入口应当安排多入口、易爬取位置的入口。

3.  网站结构

网站结构分为两部分:物理结构、逻辑结构;

Ø 而满足搜索引擎收录的最基本点也是从这两点开始,首先就是保障物理结构简单、不宜过深、方便查找,物理结构的影响主要表现在“请求返回时间”上,导致物理结构复杂的因素主要是系统漏洞原因生成的不必要层级;

Ø 其次逻辑结构要清晰合理,容易被搜索引擎所理解并且方便用户记忆、传播、分享;逻辑结构主要表现在页面目录结构及URL结构,如果目录结构过于复杂(例如:用户点击一百次才能到目标页面和用户点击3次到达目标页面的区别)会影响到用户体验度和搜索引擎友好度,URL结构(以“/”为划分标志,不宜超过4层结构)复杂会不利于搜索引擎收录和用户记忆、传播。

4. 页面内容

目前搜索引擎对于网站内容的判断直接关系到页面是否能够被收录、收录后能否有一个良好排名的重要标准,对于页面内容的判断依据主要有4方面:1.内容原创度2.内容新鲜度 3.关键词分布4.更新频率;

Ø 内容原创度:搜索引擎对重复内容是比较“反感”的,所以,原创度较高的内容也一定意义上被搜索引擎所喜欢,从而易被收录;

Ø 内容新鲜度:“新鲜度”主要指内容的热门程度和时间性,对于近期发生的“大事件”“热门事件”等都是容易被用户搜索引擎双重关注的;

Ø 关键词分布:除了以上两点外,关键词的分布也对搜索引擎是否收录启到决定性的因素,因为搜索引擎分辨页面内容的重要因素之一就是关键词,但是需要注意的是:过分的关键词堆砌行为会被搜索引擎视为“作弊”行为,所以关键词的分布不能只追求数量,一般来说800字以内的软文,关键词出现最多不要超过8次,而且要均匀分布在软文中。

Ø 网站更新频率:关系到搜索引擎爬虫在网站爬取频率,一定意义上说网站的更新频率是与爬取频率成正比的,而搜索引擎爬取喜欢有规律的更新。

5. 网站链接

网站链接分为:内部链接和外部链接;

Ø 内部链接结构主要有2方面作用:网页间权重传递和“入口”,内链结构是否合理直接关系到页面能否被搜索引擎爬虫抓取和收录。

Ø 外部链接是为网站提供权重和入口的重要组成部分,外链分为单向链接(单方向导出或指入网站的链接)和交互链接(相互指向的彼此网站的链接,多称为“友情链接”),而百度目前对外链的关注不止表现在数量上,更重要的是外链的质量,否则大量的低质量外链堆砌只会给网站带来毁灭性的灾害。

6. 网站地图

网站地图分为:HTML网站地图和XML网站地图;

Ø 两者的目的都是为了帮助搜索引擎了解网站结构,从而顺利爬取和收录网站页面,所以合理的网站地图也对网页能否被收录起到决定性作用。

7. 代码

代码主要包含两部分内容:代码类别、代码大小;

Ø 代码类别:网站代码类别、结构很大限度上也决定某些部分是否能够被搜索引擎所抓取,如:iframeJava Script等部分代码,目前还不能被“百度”搜索引擎有效的理解、抓取,所以需要尽量减少这部分代码的使用;

Ø 代码大小:除代码类别外,页面代码量大小也是关系到网页是否能够爬取完全的因素,过大的代码量也会导致搜索引擎抓取不完全的情况出现,从而导致部分入口未被爬取到,致使这部分入口对应的页面不能爬取、收录。