网页数据提取

2013-04-22
  • 1527
  • 0

在我们的工作中有时需要从网页上提取页面的数据加以利用,比如:你想要监控某一关键词在百度搜索结果中每一天的变化。或者想要获得某电商网站上某一商品页面的价格、品牌、介绍、照片地址等信息。我们需要从html代码中提取格式化的数据。现在向大家推荐一款叫做Web-harvest的开源软件,并介绍如何基于它做网页数据的精确采集。

Web-harvest的下载地址是http://web-harvest.sourceforge.net/。目前最新的版本是2.0 beta 1。运行Web-harvest需要安装好JRE

要使用Web-Harvest精确采集数据还需要一个或多个XML格式的配置脚本定义数据采集的规则。它的原理是下载页面,并将html代码转化为XML格式的代码,然后使用XPath表达式从XML代码中精确提取数据。在该配置文件中还提供了逻辑判断、循环、参数、变量、Script脚本的定义。输出的数据格式可以是任意格式的文本,如JSON或者XML

对于抓取量不大、性能要求不高、功能不复杂的情况,简单的配置文件就能满足您的需求。如果更高的数据提取要求,您可以调用Web-Harvest提供的java api,配合Java多线程编程、数据存储、灾难恢复的设计思路构建出强大的数据抓取工具。这种架构的优势就是:仅修改配置文件就能适应更多目标网站的数据抓取。