如何挖掘GA自然流量里的Not Provided数据?

2013-06-17
  • 996
  • 0

经常用GA(Google Analytics)的朋友可能会对GA 自然流量报告里的not provided很头痛,not provided是谷歌为了保护用户隐私而有意过滤了那些已登陆用户的搜索信息。通常这些搜索信息会体现在url里面(如下图),对于匿名用户来说,GA会截取这部分字段来提取关键词数据,

一旦登陆了谷歌之后,情况就不一样了。我们注意看,url之前加了一个“https”,“https”就是安全搜索,可以确保数据传输的保密性,在国外,老外特别在意这玩意儿,特别涉及到交易流程时,https是必要的保障。所以,如果在数据传输过程中使用了”https”,那么基本上来说第三方要截取关键词数据就非常困难了。所以也就是为什么ga organic里面这些数据都不再显示。当然谷歌肯定是有其他办法,毕竟搜索是发生在谷歌自己身上,为什么不这么做可能是谷歌有它所谓的“Don’t be evil”文化吧,不过顺便透露一句,这些not provided数据谷歌adwords用户是可以看到的,所以“Don’t be evil”还是有一些小前提的,呵呵。

进入正题

好了,废话说了这么多,现在咱们进入主题,对于谷歌这些not provided数据,我们真的没辙了吗?虽然谷歌官方声称not provided的影响程度平均在10%左右,但是从我目前观察来看,大部分网站都会高数这个数字,有甚者not provided的流量占比高达50%之多。所以如果不对not provided这部分流量做观察、研究和分析的话,我们可能会损失很多潜在订单。接下来我会拿一个礼品网站数据来和大家分享,为了保密的缘故,这些数据都是经过我人工修改的,但不影响数据所表现的大趋势。当然以后有可能的话,我也会拿自己网站http://seotime.org/blog来给大家做案例,只是目前流量实在不大,一些数据无法捕获,实在抱歉,这是题外话。

首先,在分析的时候先要把source选为google,因为其他搜索引擎没有这个not provided的问题,然后你会发现,我取了一个月的流量数据,not provided的访问数为632,占整体3,173的19.9%,这个让人情何以堪。

高级细分

接下来分别建立三个高级细分:*礼网-品牌、*礼网-非品牌词和*礼网-not provided,分别代表着品牌词、非品牌词和not provided的用户数据表现,请仔细观察这三个细分的数据,品牌词毫无疑问是老客户,有较高的粘性和参与度,在这里PV是13.03,平均停留时间11:10分,新访客占比较少为40.43%,Bounce Rate为24.60%,这个数据和全站平均数据(上一张图)比起来,质量度是很高的;而非品牌词则不同,搜索非品牌词的用户由于意图比较宽泛,更多的是处在搜索周期中的比较和搜集信息这一阶段,所以各方面数据表现欠佳,PV值2.26,平均停留时间1.37分,跳出率高达74.62%。

最后看not provided, 它的表现介于品牌词和非品牌词中间,pv是5.42 小于品牌词的13.03,又大于非品牌词的2.26;在线停留时间4分34秒,新访客占比为76.27%,跳出率59.65%全部介于中间。再vs全站平均数据,我们发现not provided各项数据相差不大,pv 5.42 vs 5.26; 平均停留时间4分34秒 vs 4分18秒;新访客占比 76.27% vs 73.90%;跳出率 59.65% vs 60.67%。

自定义报告基本点

这里插一句,由于这个ga报告我没有权限去创建funel,所以无法设定goal,严格意义上任何的seo report需要有三项基本数据才能算合格:数量获取,行为检测和结果评估。

数量获取-主要指用户的访问量,独立访问量等,一个量化的数据

行为检测-是指如pv\在线停留时间\跳出率等反应用户参与度的数据

结果评估-主要是达成goal数量,可以是到达某个指定页面、完成某项购买、下载资料等

Report里面少了每一样都可能会引起误判,比如某些关键词看起来流量很大,用户参与度也高,但是你若不给他们设定goal,不了解最终用户产生的结果或者对我们网站的价值,那么他们和我们网站又有什么关系呢?又比如有些关键词很能带来订单,行为数据也不错,但不知道具体的成单数量,那么我们就不能了解客单价,不能了解投入产出比。所以,一个标准的报告一定要包含这三个元素,才能得出更有insights的结论。

可视化数据

现在拉回来,我们这里暂时就假设not provided的goal完成占比也是介于brand与nbrand之间的,现在我们至少能够判断出,这批not provided里面既包含品牌词,又包含非品牌词,而且品牌词和非品牌词总体上来说是比较均匀分布的,因为和全站平均值很近。但很可能not provided里面包含的通用词占比相对更多一点点,从如下的坐标图可以看出,x轴是新访客占比,y轴是用户行为分值(综合多项数据),原点是平均值的表现,橙色的点是品牌关键词,我们可以看出品牌词的用户行为数据分值相对较高,但是新访客占比较少;非品牌是绿点,正好相反,新访客占比多,但是用户行为数据低于平均值,而蓝色是not provided的表现力,介于中间,但有偏向,我们把四个点连起来能够组成两个三角形,BAN和ANN,从中可以分析出not provided离brand要比平均值离brand的距离远(三角形斜边最长),而not provided到nbranded的距离要比avg kw到nbrand的近,这张图标可以从视觉上形象说明,not provided里面的关键词非品牌词占比稍微偏多一点点。

当然,这个蓝色的点(not provided)是一直在变动的,我们可以定期去做这样的一种图表来检测not provided里面的关键词品牌与非品牌占比情况。不过说了这么多,我们还是不能很准确的知道not provided里面到底包含了哪些关键词,但至少当你的老板问你是否对not provided有想法的时候,你可以说出个所以然,而不是说,偶不知道。。。

结合登陆页

接下来我们做更进一步的工作,虽然我们不能准确知道到底not provided里面包含了哪些具体的关键词,比如,我随便举例子,到底是“Fimen是谁?”还是“谁是Fimen?”,但是结合登陆页和上面的用户行为数据我们可以猜出个大概。如下我为not provided数据添加一个登陆页作为二级维度:

第一个not provided对应的是首页,而该网站 首页的title上面关键词既有品牌词,也有通用词,比如某某品牌手礼网,那到底这个词是品牌词还是非品牌词,我们可以去看它的用户行为数据,哦!它的pv达到14.27,哦!平均停留时间2分钟!新访客占比59.15%,这些数据和品牌词数据非常相似(还记得之前的数据吗?),所以这些词一定是品牌词/品牌相关词,不大可能是通用词。再看第二行数据,从url我们就能猜到这个页面承载的是与台湾特产相关的词语,那到底是什么类型的词语?看后面的数据,很明显了吧?我就不说了。

当然,这个时候可能你要再问,那到底就是台湾特产这个词,还是其长尾词?比如台湾特产什么好?台湾特产推荐等等。我不能给你准确的答复,但是你可以继续细分这些词的行为数据,比如把这些长尾词按照某种特定词根继续分组观察,然后和原词去比较可能会得到你想要的结果。

好了,今天关于GA里面的not provided数据挖掘和分析就到这里,Fimen期待下次再和大家分享,同时也希望听听大家的建议。