Web Insights 体系架构

2013-11-29
  • 902
  • 0
直观来说Web Insights分为三个部分,显示层、中间层和爬虫层。 爬虫层负责各种维度的数据抓取逻辑。并且将抓取到的数据存储到本地的数据库中。例如关键词抓取、收录抓取和外链抓取。 中间层是爬虫层和显示层之间的桥梁,他负责把爬虫层抓到的原始数据根据显示层的要求,经过各种复杂的计算,将计算结果按照显示层的要求存储到数据表中。这样既保证了显示层的显示效率,又保证了当用户访问系统时,系统访问数据库的频率。 显示层就是直接和用户交互的前台界面层。提供各种格式报表的展示。 从上面看,各个层之间都是通过数据库来联系的。层与层之间是相互独立的。爬虫层出现问题时,显示层是不会受到影响的。当中间层宕机时,显示层仍然可以正常访问。同时从系统备份的角度来说,需要做日备份的只有显示层的数据。而显示层的数据时相对较少的数据,因为显示层的数据时统计结果数据,所以数据量不是很多。而数据量巨大的爬虫层可以做月备份。

直观来说Web Insights分为三个部分,显示层、中间层和爬虫层。

爬虫层负责各种维度的数据抓取逻辑。并且将抓取到的数据存储到本地的数据库中。例如关键词抓取、收录抓取和外链抓取。

中间层是爬虫层和显示层之间的桥梁,他负责把爬虫层抓到的原始数据根据显示层的要求,经过各种复杂的计算,将计算结果按照显示层的要求存储到数据表中。这样既保证了显示层的显示效率,又保证了当用户访问系统时,系统访问数据库的频率。

显示层就是直接和用户交互的前台界面层。提供各种格式报表的展示。

从上面看,各个层之间都是通过数据库来联系的。层与层之间是相互独立的。爬虫层出现问题时,显示层是不会受到影响的。当中间层宕机时,显示层仍然可以正常访问。同时从系统备份的角度来说,需要做日备份的只有显示层的数据。而显示层的数据时相对较少的数据,因为显示层的数据时统计结果数据,所以数据量不是很多。而数据量巨大的爬虫层可以做月备份。