1. 用户画像实施
在开始构建用户画像之前,需要数据产品出一个详细的实施文档,如果说用户画像规划文档是说做什么的话,那用户画像实施文档就是说明具体要怎么做;这样开发人员才知道具体的逻辑着手实施,如受多个因素影响的标签每个因素的权重是多少,这样才能计算出最终标签的值。
以下各步骤均要在实施文档里面详细说明:
2. 数据建模
数据的如何从原始数据最终转化成标签数据,需要定义一个标准处理流程,这就是数据建模。
1)建模流程
构建用户画像系统解决方案
以上图片为使用多项 Logistic 回归算法对电信业客户进行分类的建模流程,从图片上看,数据建模可以分为以下几个步骤:
① 获取原始数据,包含用户访问的行为日志、用户基本属性等,具体需要的数据视用途而定,这里预测客户类别用到的信息有地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别。
② 数据预处理,挖掘出事实标签,对用户数据进行过滤、清洗、简化表示,例如:过滤掉表中的无关字段,指定字段类型,处理缺省值等。
③ 分析用户行为及属性,构建用户画像的模型标签,通过用户行为属性分析,得到各类型用户的行为规律及特征属性,构建用户行为属性模型,训练出最终模型。
④ 调优模型,对模型进行调优,使预测结果更准确。
⑤ 通过模型进行预测,完善用户画像,预测用户的操作行为。
2)建模常用模型
以下列出常见的建模模型,以便了解熟悉各模型的常见用途。
① 文本挖掘模型(TF-IDF):常用于文本的特征提取,处理与清洗数据,匹配标识用户数据,TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率越高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,能更好的代表本篇文章,适合用来分类。
② 分类聚类模型(贝叶斯、KNN、K-Means):通过分析有相同特征的群体信息,对用户进行划分。
③ 机器学习:通过特征提取挖掘出标签。
④ 相似度模型(余弦相似度、皮尔逊相似度):用于辅助分类、聚类。
⑤ 推荐算法(Apriori):根据用户访问情况推荐出兴趣标签,完善画像。
3. 用户画像维度拆解
思考通过各种维度来全方位描述用户画像,根据产品是To B还是To C注重的方向又不一样,To C类型产品会关注用户的性别、年龄、兴趣、职业等信息;而To B类产品不太关注这些,会更倾向于研究用户的工作能力、行为习惯等。
产品所处的行业对用户画像侧重点也有影响,社交类和金融类的产品关注点又不一样;一般来说,可通过以下信息来基本构建用户画像,其余的维度视具体需求再进行定制化开发。
构建用户画像系统解决方案
总之,用户画像的多维度刻画需要遵循MECE法则进行全方位不重复的拆解,这里同时引出了一个问题,维度的细分是不是越细越好?
如果用户画像的颗粒度过于精细。意味着开发成本直线提升,同时,过细的拆分意味着每个类别对应的用户量变少,造成服务目标单一化。
举一个比较极端不存在的例子,将用户ID作为标签,则每个ID对应一个用户,这样的细分对精细化运营是没有帮助的;在维度细化拆分的过程中也要不停关注标签值覆盖面来进行微调。
4. 用户画像标签生成
由于用户需求和用户场景不断更新,所以标签体系需要持续完善。不同的用户需求和业务场景,不同的业务标签,用户标签系统就不同。www.convertlab.com