用户画像小结

用户画像，英文为Customer Profiling或Persona，核心在于标签化，目的在于得出结论，业务决策。

一、实践经验

管理层想要用户画像，个人感觉主要有两方面的业务原因：

1、风控，特别是基于历史数据中，带来最大盈利的用户，放款后发展越来越好的用户的特点，进行数据挖掘。

2、产品设计，如何更加场景化，增加产品的吸引力。

其他诸如拒绝回捞、精准营销等都是顺手的事情了。

逼格很高，数据丰富，领导宏图大志，希望画像越丰富、越细致越好。工程浩大，但实际业务人员却觉得没啥用，无法直接支持运营，又看得人头晕目眩，沦为数据的简单提取和统计加工。这里总结一下失败的原因，也算没有白干。

1、回头来看，至少应当先做一些简单的、必须的数据项，根据业务的需要再逐步增加，节省物力人力，对于增加内容也有的放矢（很可能是来自业务的实际需求）。

建议前期包括的数据：人口基本属性、历史信用属性，我司历史申请还款记录，要以强相关信息、定性数据（标签化、抽象化）为主。目标是协助业务筛选出感兴趣的客户，定量数据不利于业务直接适用，也由此看出穆迪这类公司为什么会输出企业评级而不是企业信用分。

2、问题定义与问题不可解。

首先，应当具体的场景具体去选择合适的用户标签，不存在一个通用的用户画像。先有业务场景，再有字段需求，如利用银联数据＋自身数据＋信用卡数据，发现信用卡消费超过其月收入的用户，推荐其进行消费分期。

其次，如放款后的客户，多次续贷并且企业发展越来越好，个人认为是比较难通过内部的一些数据描绘出来的，本身就是一个无法转换为数据问题的业务问题，不可解。

最后，我们的用户标签是很粗浅的、稀疏的，最大的价值就是方便一点、集中一点，想要对业务有更大的价值，应当提取的是隐形的标签（业务无法直接获取的），比如用户的贷款目的、用户资金偏好（适用于授信后客户拒绝接受场景）、产品的使用频次等，当然这需要使用一些模型（简单的规则模型也行）和算法得到。

二、案例研究

1、电商案例

用户样本筛选，目的是区隔用户，可以将复杂的后台数据（业务不可得或需消耗大量精力获得）转换为简单、可理解的业务标签（用户描述）。

用户画像小结

用户画像的数据模型，可以概括为下面的公式：用户标识+ 时间 + 行为类型 +接触点（网址+内容），某用户因为在什么时间、地点、做了什么事，打上XX标签（如母婴、红酒等）。

用户标签的权重可能随时间的增加而衰减，定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：标签权重=衰减因子×行为权重×网址子权重。

2、标签体系案例

构建标签体系

主流的标签体系都是层次化的，首先标签分为几个大类，每个大类下进行逐层细分。

基于原始数据首先构建的是事实标签，事实标签可以从数据库直接获取（如注册信息），或通过简单的统计得到。这类标签构建难度低、实际含义明确，且部分标签可用作后续标签挖掘的基础特征（如产品购买次数可用来作为用户购物偏好的输入特征数据）。

模型标签是标签体系的核心，也是用户画像工作量最大的部分，大多数用户标签的核心都是模型标签，需要用到机器学习和自然语言处理技术。

最后构造的是高级标签，高级标签是基于事实标签和模型标签进行统计建模得出的，它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建，才能够构造高级标签。构建高级标签使用的模型，可以是简单的数据统计，也可以是复杂的机器学习模型。

用户画像小结

具体标签构建

以三类标签为例，三类标签的特性、使用的技术均存在差异。人口属性标签，比较稳定，一旦建立很长一段时间基本不用更新，标签体系也比较固定；兴趣属性标签，随时间变化很快，有很强的时效性，标签体系也不固定；地理属性标签，时效性跨度很大，如GPS轨迹标签需要做到实时更新，而常住地标签一般可以几个月不用更新。

很多产品（如QQ、facebook等）会引导用户填写基本信息，包括年龄、性别、收入等人口属性，但完整填写个人信息的用户只占很少一部分。一般会用填写了信息的这部分用户作为样本，把用户的行为数据作为特征训练模型，对无标签的用户进行人口属性的预测。这种模型把用户的标签传给和他行为相似的用户，可以认为是对人群进行了标签扩散，因此常被称为标签扩散模型。

通过分析，我们发现男性和女性，对于影片的偏好是有差别的，因此使用观看的影片列表来预测用户性别有一定的可行性。此外我们还可以考虑用户的观看时间、浏览器、观看时长等，为了简化，这里只使用用户观看的影片特征。对于预测性别这样的二分类模型，如果行为的区分度较好，一般准确率和覆盖率都可以达到70%左右。

用户画像小结

兴趣画像是互联网领域使用最广泛的画像，主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计，因此在构建用户兴趣画像之前，需要先对用户有行为的内容进行内容建模。内容建模需要注意粒度，过细的粒度会导致标签没有泛化能力和使用价值，过粗的粒度会导致没有区分度。

新闻数据本身是非结构化的，使用文本主题聚类完成主题标签的构建，形成对新闻内容从粗到细的“分类-主题-关键词”三层标签体系内容建模（如LDA之类的）。在完成内容建模以后，我们就可以根据用户点击，计算用户对分类、主题、关键词的兴趣，得到用户兴趣标签的权重。

用户对每个词的兴趣计算公式：，用户画像小结表示词在这篇新闻中的权重。该公式有两个问题：一个是用户的兴趣累加是线性的，数值会非常大，老的兴趣权重会特别高；一个是用户的兴趣有很强的时效性，昨天的点击要比一个月之前的点击重要的多，线性叠加无法突出近期兴趣。

我们使用如下的方法对兴趣得分进行次数衰减和时间衰减。次数衰减的公式：，时间衰减的公式：用户画像小结，根据用户兴趣变化的速度、用户活跃度等因素，也可以对兴趣进行周级别、月级别或小时级别的衰减。

地理位置画像常驻地的挖掘，基于用户IP地址的解析，对用户IP出现的城市进行统计就可以得到常驻城市标签，不仅可以用来统计各个地域的用户分布，还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等。GPS数据一般从手机端收集，但很多手机APP没有获取用户 GPS信息的权限。

用户画像效果评估

兴趣画像的人为评估比较困难，常用评估方法是设计小流量的A/B-test进行验证，可以筛选一部分标签用户，给这部分用户进行和标签相关的推送，看标签用户对相关内容是否有更好的反馈，例如如果这批用户的点击率和阅读时长明显高于平均水平，就说明标签是有效的。

用户画像的评估指标主要是指准确率、覆盖率、时效性指标。标签还需要有一定的可解释性（便于理解）和可扩展性（便于维护，后续标签的添加）。

标签的准确率指的是被打上正确标签的用户比例，准确率用户画像小结是用户画像最核心的指标，一个准确率非常低的标签是没有应用价值的。评估一般有两种方法：一种是在标注数据集里留一部分测试数据；另一种是在全量用户中抽一批用户，人工标注评估准确率。由于初始的标注数据集的分布和全量用户分布相比可能有一定偏差，故后一种方法的数据更可信。准确率一般是对每个标签分别评估，多个标签放在一起评估准确率是没有意义的。

标签的覆盖率指的是被打上标签的用户占全量用户的比例，与准确率是一对矛盾的指标，可以拆解为两个指标来评估，标签覆盖的用户比例（覆盖的广度）、覆盖用户的人均标签数（覆盖的密度）。覆盖率既可以对单一标签计算，也可以对某一类标签计算，还可以对全量标签计算，均有意义。

用户覆盖比例：。人均标签数：用户画像小结

时效性，如兴趣标签、出现轨迹标签等，一周之前的就没有意义了，如性别、年龄等，可以有一年到几年的有效期。对于不同的标签，需要建立合理的更新机制，以保证标签时间上的有效性。

用户画像的使用

一般需要一个可视化平台，对标签进行查看和检索。此外，我们还可以使用不同维度的标签，进行高级的组合分析，产出高质量的分析报告。

3、用户实时风格偏好建模

建模标签明确，用户偏好的商品风格，建模流程如下图：

用户画像小结

标签产出的建模流程如下图，使用基于user-商品原始统计为基础的topic model解决方案（PLSA、LDA、人工review topic下的词）。

用户画像小结

在此基础上，增加性别、年龄段、购买力（收藏、购买、点击商品的简单统计+协同过滤）等预测类标签，增加维度进行更加准确的个性化推荐。

本案例作者也进行了新品投放方面的应用，值得借鉴，我的理解其实就正反两面，好的客户找到对应的特殊标签，分析来源渠道、广告响应等，有了数据再进一步迭代提高预测准确度；坏的客户就切断渠道，做规则拒单。

用户画像小结

4、消金逾期客户画像

基本相当于数据分析，从不同维度去观察客户的占比、逾期率、首逾率、不良率。

用户画像小结

以征信认证逾期为例，可以看到分布及逾期情况是否与业务预期一致，如存在差异则需及时调整贷前风控策略。本平台借款额度低、期限短，一般人不会为了这种贷款去打印人行征信，如果提供了人行征信，客户多头借贷、中介包装风险较高，建议着重审核，数据表现也与业务理解一致。

用户画像小结

5、客户画像中常用的AI算法

主要是NLP，分词、实体识别和词性标注同属序列标注问题，是基础工作。主题模型（Topic Model，LDA等，取代传统的聚类方法）、TF-IDF、Word2Vec（Embedding方法，可为每个词学习到一个稠密向量）等，得到了如标签（关键词、分类）、主题、嵌入向量（都可以理解为特征）。如果把用户对物品的行为，消费或者没有消费看成是一个分类问题，用户用实际行动帮我们标注了若干数据，那么挑选出他实际感兴趣的特性就是特征选择的问题。

TF-IDF ，词频(Term Frequency)，逆文本频率指数(Inverse Document Frequency)，TF表述的核心思想是，在1条文本中反复出现的词更重要。而IDF的思想是，在所有文本都出现的词是不重要的，IDF用于修正TF所表示的计算结果。

用户画像小结