流量统计工具如何获取的用户性别年龄等信息?

建立了一个庞大的词库,这个词库是不断更新的,更新包括2个方面,第一个方面是不断的加入新的词汇,另一个方面则是进行词性的分析。不断加入新词大家比较容易理解,但是对于词性的判断可能大家不是很熟悉,词性的判断是这样的,比如:”软件”这个词,在一定程度上是存在男女性别兴趣度的,通过维度的算法和大量的基础调研,我们统计到如下数据:”软件”在概率上有1%的女性对这个词敏感,其中有99%的男性敏感。

第二步,一般URL上都会附着着一个句子,比如:某个URL上附着上的文字是:”最新软件下载。”维度会采集这个URL,然后进行分词处理,比如这个句子,在维度看来,会是这样的一个词组:”最新|软件|下载”我们会将这个句子做分词,然后分别分析性别概率。

比如:最新软件下载

会是这样: 最新(21%女性关注,79%男性关注)

软件(1% 女性关注,99%男性关注)

下载(10%女性关注,90%男性关注)

我们综合得到这个URL的性别比例概率:

10%左右女性点击的可能性,90%男性点击的可能性

就此,我们得出这个URL的性别分布。

第三步,维度会统计某一个用户点击过所有的URL,包括上面的分词,然后累加做计算,然后部分参考用户鼠标行为,从而综合得到一个用户的性别概率分布。从而当某一个网站访问用户比较多,或者某一个网站使用维度统计比较长的时间后,维度基本上可以判断该网站性别分布概率。

总体来说,访问量比较大的站点,相对来说比较容易分析。如果访问量较小的站点,则维度需要较长时间进行连续统计分析。但是总体来说,统计到用户的URL越多,时间越长,数据的准确性越趋近真实性别分布概率。

以上是维度实现性别分析的大概过程,当然,真正的实现过程非常复杂,建立一个庞大的性别基准库,就相当大的消耗,而且基于词性本身的特点,词库需要不断的更新和进行基准判断。在用户看来很简单的一个性别分析,其实是由大量维度工程师不断辛苦工作的结果,而且还在不断完善过程中,希望大家可以在以后的日子多给我们提意见和批评!

非原创,网上摘的。

去年今日运营文章

  1. 2023:  这或许是最全面的竞品分析资料!(0)
  2. 2023:  复利思维模型:拥抱人生的指数增长(0)
  3. 2023:  34个公司,52次面试,7个offer,我的产品岗面试复盘(0)
  4. 2023:  一文读懂:在抖音如何玩转“私域”?(0)
  5. 2023:  教你轻松区分并绘制产品功能结构图、产品信息结构图和产品结构图(0)

原创文章,作者:爱运营,如若转载,请注明出处:https://www.iyunying.org/seo/dataanalysis/101983.html

(0)
爱运营的头像爱运营管理员
上一篇 2017年4月24日 上午10:45
下一篇 2017年4月24日 上午11:21

推荐资讯

分享本页
返回顶部