1. 爱运营首页
  2. 网站优化
  3. 数据分析

流量统计工具如何获取的用户性别年龄等信息?

建立了一个庞大的词库,这个词库是不断更新的,更新包括2个方面,第一个方面是不断的加入新的词汇,另一个方面则是进行词性的分析。不断加入新词大家比较容易理解,但是对于词性的判断可能大家不是很熟悉,词性的判断是这样的,比如:”软件”这个词,在一定程度上是存在男女性别兴趣度的,通过维度的算法和大量的基础调研,我们统计到如下数据:”软件”在概率上有1%的女性对这个词敏感,其中有99%的男性敏感。

第二步,一般URL上都会附着着一个句子,比如:某个URL上附着上的文字是:”最新软件下载。”维度会采集这个URL,然后进行分词处理,比如这个句子,在维度看来,会是这样的一个词组:”最新|软件|下载”我们会将这个句子做分词,然后分别分析性别概率。

比如:最新软件下载

会是这样: 最新(21%女性关注,79%男性关注)

软件(1% 女性关注,99%男性关注)

下载(10%女性关注,90%男性关注)

我们综合得到这个URL的性别比例概率:

10%左右女性点击的可能性,90%男性点击的可能性

就此,我们得出这个URL的性别分布。

第三步,维度会统计某一个用户点击过所有的URL,包括上面的分词,然后累加做计算,然后部分参考用户鼠标行为,从而综合得到一个用户的性别概率分布。从而当某一个网站访问用户比较多,或者某一个网站使用维度统计比较长的时间后,维度基本上可以判断该网站性别分布概率。

总体来说,访问量比较大的站点,相对来说比较容易分析。如果访问量较小的站点,则维度需要较长时间进行连续统计分析。但是总体来说,统计到用户的URL越多,时间越长,数据的准确性越趋近真实性别分布概率。

以上是维度实现性别分析的大概过程,当然,真正的实现过程非常复杂,建立一个庞大的性别基准库,就相当大的消耗,而且基于词性本身的特点,词库需要不断的更新和进行基准判断。在用户看来很简单的一个性别分析,其实是由大量维度工程师不断辛苦工作的结果,而且还在不断完善过程中,希望大家可以在以后的日子多给我们提意见和批评!

非原创,网上摘的。

去年今日运营文章

  1. 2020:  2020企业精细化运营白皮书(0)
  2. 2020:  复盘|卖课16天变现32万+,我总结了这5条经验(0)
  3. 2020:  QuestMobile2020女性新消费趋势报告:女性用户成电商主力军,直播、社交和种草,哪个招式更灵光?(0)
  4. 2020:  操盘手经验分享:如何靠一场活动做到200万+销售额!(0)
  5. 2020:  黑夜里活跃的“耳朵经济”:2亿人一年花109亿小时在听书上(0)

原创文章,作者:爱运营,如若转载,请注明出处:https://www.iyunying.org/seo/dataanalysis/101983.html