移动站适配之Pattern详解

2015-06-17
  • 1250
  • 0
        百度在移动端的抓取识别能力相对于PC端来讲,还依然薄弱。我们需要利用百度站长平台的移动适配来帮助搜索引擎加快抓取识别的步伐。
        移动适配分为URL对应关系和pattern对应关系两种。百度官方建议尽量采用pattern方式,因为URL方式需要每天不断补充提交新的对应文件,不仅相对繁琐,而且效率也比较低。而pattern方式只需要站长根据PC端与移动端URL的对应规律,撰写一次对应文件后,搜索引擎就可以根据此文件不断将移动端URL提取出来,并且抓取识别。
        下面简单了解一下如何撰写pattern对应的xml文件:
        Pattern对应关系示例:
<?xml version="1.0"encoding="UTF-8"?>
<urlset>
<url>
<loc><![CDATA[http://news.baidu.com/]]></loc>
<data>
<display>
<pc_url_pattern><![CDATA[http://news.baidu.com/(\d+)/(\d+)/(\w+).html]]></pc_url_pattern>
<xhtml_url_pattern ><![CDATA[http://m.baidu.com/news/${1}/${2}/${3}.html]]></xhtml_url_pattern>
<html5_url_pattern ><![CDATA[http://html5.baidu.com/news/${1}/${2}/${3}.html]]></html5_url_pattern>
<wml_url_pattern ><![CDATA[http://wap.baidu.com/news/${1}/${2}/${3}.html]]></wml_url_pattern>
</display>
</data>
</url>
</urlset>
        以上示例代码,其实最核心的地方就是PC端与移动端对应时用到的匹配字符(正则表达式元字符),目前适配的xml文件中正则匹配符号只支持(\d+)和(\w+),其中\d表示匹配数字,\w表示匹配字母或数字或下划线或汉字,而后面的+号则表示重复一次或更多次(即该位置出现的字母或数字至少出现2个以上,每个字母或数字可以不同);对应的移动端路径中类似于${1}这类的数字则表示替换PC路径中对应位置的参数。
        还有一点需要注意的是,移动端网站可能是同时具备多个版本,目前百度官方针对适配文件给出的是xhtml、html5、wml三个版本,如果你的网站同时具备这几个版本或其中某个版本,在xml文件中准确写出即可,如果只有一个可以只写一个的。
        如果一组pattern对应关系代码无法准确匹配出整站URL,可以多写几组。