1. 基础数据的整理。
大致可以把基础数据分类三类:
第一类是结构化的数据,比如用户的性别、年龄或者一些行为的统计量。一般来说,每一个用户都会有一条对应的数据,而且这些数据都有明确的含义。因此,对于这部分用户的数据,并不需要进行特殊的整理,只需要按不同的维度进行存储就可以了。
第二类是一些特定格式的非结构化数据,比如文本、语音和图像等等。这些数据具有很强的领域知识,需要用一些特定的算法进行处理与分析。比如文本可以进行分词、主题建模或者进行文本的分类,语音和图像也可以进行类似的分类或聚类。通过上面的工作,就可以把这些特定格式的非结构化数据转化为好理解的结构化数据(如主题或者分类标签)进行存储或进一步的处理。
第三类是半结构数据,主要是数据之间的关联,比如用户之间的好友关系,用户与商品之间的关联,或者用户与不同地点之间的关联。这些数据中往往也蕴含了大量的有用信息,但是与前两类数据不同,并不适合直接存储为用户的特征,而更适合用图或者矩阵的方式进行对数据间的关联进行建模与存储。
2. 对用户进行描述
对用户的描述是一个因业务而异的事情。针对不同的应用场景,可以给用户设计不同的标签与类别进行描述,而这些描述也可以具有一定的层次性。那么如何将这些设计好的标签与用户进行关联呢,也可以分下面一些情况来说:
第一种是最简单的方式,通过人工制定的规则从用户的基础数据中提取出高层的描述 。比如说我们定位“大妈用户”这个用户群是45岁到65岁之间的女性,那么就可以根据底层的性别和年龄数据制定出规则,筛选出对应的用户,给这些用户打上对应的标签。因此,这种方式适用于用户标签和用户的基础数据之间关系非常明确的场景。
第二种情况是,对用户群有明确需求,但是并不了解与用户群相关的用户特征。比如说希望找到对某种商品感兴趣的用户群,但是并不知道满足什么特征的用户会对这种商品感兴趣。这个时候,如果能够通过用户的线上行为或者人工的线下标注得到一批用户群的正负样本,就可以通过监督学习的方式训练出分类器,根据用户的基础数据特征,预测出用户是否数据特定的用户群。
第三种情况是,有大量的用户特征,但是对于用户群并没有明确的认识。这个时候就可以采用一些无监督学习的方法,如聚类、主题模型和关联规则等,自动学习出一些有代表性的用户群,然后根据人工的经验,对这些用户群进行描述。
上面说的方法,主要使用了用户的结构化数据特征。其实,前面提到的非结构数据也对用户的描述非常有帮助。如果已经存在一些用户与用户或者用户与其他物品之间的关联关系,就可以通过这些关联关系把用户或者物品的标签传播给其他的用户。及时不存在直接的关系,也可以根据用户特征的相似度构造出这样的关系,user-based CF就是采取的这种方式。这种思路主要是用图的方式对问题进行建模,从另外一个角度,也可以将图中的各个实体都映射到具体的线性空间,用向量进行描述。这样就可以套用前面提到的一些结构化的处理思路进行用户特征的挖掘。比如矩阵分解就是一种应用非常广的空间嵌入方法。
解决了用户个体的描述,那么对用户群体的特征、喜好也就水到渠成了,简单的话,只需要对群体用户进行一些标签的统计与汇总就可以了,这里就不过多叙述了。
3. 对业务的帮助
用户特征的挖掘对于业务的帮助是非常大的。比如最直接的客户关系管理、广告、推荐系统等。对于题主说的对公司业务的调整,也可以根据不同的业务场景结合用户的数据去具体分析。举例来说,通过用户的分析,如果认定目前网站的主要用户是18岁以下的中小学女生,那么在网站风格设计上,就可以多考虑这部分人的喜好,改善用户的体验。
上面说的只是一个最最简单的例子。实际上用户都不是孤立存在的,用户和特征之间,用户和用户之间,用户和其他实体之间,都存在着错综复杂的关系。理清楚这些数据之间的关系,正是数据挖掘的难点与意义所在。通过合适的方法,可以从看是杂乱无用的数据中提取出最有价值的那些关系,或者说是knowledge。这些knowledge对于指导业务的发展必然是非常有价值的。对了,最后还有一个非常重要的信息,就是时序。通过挖掘数据随不同时间的变化情况,我们能够看到很多事物的演化规律,及时对一些突发情况进行预警,也可以对可能发生的一些事情预先分配好资源,以带来更大的效益。
本文来源:知乎 作者:Orangeprince
去年今日运营文章
- 2024: 2023小红书《明星同款公开课》IP招商方案(0)
- 2024: 2023小红书《她宇宙》年度Women大会招商方案(0)
- 2024: 2023小红书《美好生活学院》明星营销IP招商方案(0)
- 2024: 互联网设计师术语大全(0)
- 2024: YearCompass年度计划手册模板.PDF(0)
原创文章,作者:爱运营,如若转载,请注明出处:https://www.iyunying.org/seo/dataanalysis/4729.html