Netconcepts | 网页数据提取

在我们的工作中有时需要从网页上提取页面的数据加以利用，比如：你想要监控某一关键词在百度搜索结果中每一天的变化。或者想要获得某电商网站上某一商品页面的价格、品牌、介绍、照片地址等信息。我们需要从html代码中提取格式化的数据。现在向大家推荐一款叫做Web-harvest的开源软件，并介绍如何基于它做网页数据的精确采集。

Web-harvest的下载地址是http://web-harvest.sourceforge.net/。目前最新的版本是2.0 beta 1。运行Web-harvest需要安装好JRE

要使用Web-Harvest精确采集数据还需要一个或多个XML格式的配置脚本定义数据采集的规则。它的原理是下载页面，并将html代码转化为XML格式的代码，然后使用XPath表达式从XML代码中精确提取数据。在该配置文件中还提供了逻辑判断、循环、参数、变量、Script脚本的定义。输出的数据格式可以是任意格式的文本，如JSON或者XML。

对于抓取量不大、性能要求不高、功能不复杂的情况，简单的配置文件就能满足您的需求。如果更高的数据提取要求，您可以调用Web-Harvest提供的java api，配合Java多线程编程、数据存储、灾难恢复的设计思路构建出强大的数据抓取工具。这种架构的优势就是：仅修改配置文件就能适应更多目标网站的数据抓取。

内容营销

效果营销

数字广告

创意设计

社交营销

海外营销

智能营销

品牌公关

中国营销排行榜大会

专业知识分享

网页数据提取