DNA级用户画像：直达用户内心-柚子目录

DNA级用户画像：直达用户内心

一、什么是用户画像？为何要做用户画像？

在进腾讯前，听说互联网产品都喜欢做用户画像调研，但成功应用没几个。进公司后看了几份用户画像报告，基本点面都覆盖了，数据和分析也没什么偏差，但不知道解决哪些问题。所以这里我先探讨两个问题，什么是用户画像，为何要做用户画像。

刚入调研的行业时候，觉得调研是无所不能，后来觉得调研无所能。其实关键是我们想清楚两个问题：一是我们解决什么问题，二是用户能回答哪些问题。

自从进了腾讯，才大概了解到一个产品工作流程：

商业分析->产品交互DEMO->供应商BD->产品设计->前后台开发->市场推广->用户运营->售后客服->商业分析（重头开始，迭代2）

可以看到，我们常面对三类问题：产品设计、市场和技术。针对这三类问题，用户能回答哪些？答案是显然的：

技术问题：用户无法回答。
产品设计：产品需求问题，用户仅能意识到浅层问题，但不思考需求背后逻辑、需求主次关系等，故他们的回答仅能参考。所以说产品设计不需要看用户调查。交互设计问题，我们可看用户能否完成主要任务，评估交互操作是否符合用户基本习惯，如信息主次是否分明、色彩色块引导是否合理、图标是否存在认知混乱、逻辑结构是否易于记忆。可见，用研在产品设计方面有所帮忙，但有一定的局限性。
市场问题，向哪些用户推广，在哪些渠道推广，推广什么。这些问题都可以通过用研得到结果，可见用户研究对市场推广有较大帮助。

回到刚才第一个问题，什么是用户画像？这个是什么不重要，重要的是我们要解决什么问题。一般而言，用户画像是解决市场推广问题，较少解决产品设计问题的调研报告。

二、做用户画像的前提条件：其实我们早已有解决方案！

作为一个用研同事，我们经常面对两个问题：一是调研报告出来后就凉在那里，似乎没起什么作用；二是产品同事经常报怨，不知道用户有哪些需求，如何解决目前困难。

如前面谈及，用户研究不是无所不能，它仅是提高产品/市场工作效率的工具之一，但不能代替各同事专业技能。或许有人说，这是你们用研没有做好做得深入，没有突破。

实际上，让用研同事入门产品设计或品牌推广专业技能，大概需要半年时间，然后才能提出一些专业解决方案。但没人等得起半年，最多等2周，所以调研报告解决不了产品经理的问题。

后来，作为用研，我调入到产品组，再后来调入品牌组，每个组呆了半年，自己切入产品设计和品牌推广具体工作，才知道大概需要是哪些东西，如何解决。

但假如大家没有这个条件，可让产品经理先说说潜在几个解决方案，然后每个方案需要获取哪些数据来验证是否可行。这样用研项目才会有价值。用户研究再深，也不能代替设计师的活，画出蒙罗丽莎。

三、我们为何要做用户画像？

在品牌组常被问到一个问题：用户具有哪些特征，他们喜欢什么东西？当这个问题经常被提问，就有觉得有解决的必要，其实不是，是我们看到这个答案如何应用：

我们希望根据用户心理诉求，策划一些有共鸣的话题/活动，以便SNS传播分享。
我们希望根据用户品牌喜好，寻找一些异业品牌、娱乐节目、明星偶像合作，用曝光资源换取优质品牌合作，提升会员的美誉度。
我们希望根据用户生活形态，在线下渠道/商家推广会员品牌，投放更加精准。

从上述可以看到，我们回答“用户喜欢什么东西”是有应用价值，因此我们清楚我们需要收集哪些数据，调研哪些问题。

四、真实世界与用户画像的距离

(1）问卷调查法

传统用户画像调研，基本都是通过用户访谈+问卷调查完成。在报告综述的时候，基本都是采取调查数据来总结归纳。但后来我们多少发现，无论我们问了多少个问题，用户画像还是不清晰的。

例如，QQ会员用户喜欢看电影，比非QQ会员用户高出10%，但我们不能以是否喜欢看电影作为QQ会员用户核心特征。因为在看电影这件事情上，也有很多非QQ会员也喜欢。

如此情况经常发生，是否喜欢逛街、购物、旅游、看书、听音乐、玩游戏等等，您会发现我们很难用几百个问卷调查指标来将QQ会员用户生活形态描绘出来，因为95%指标都缺乏显性差异。这就是现实世界：mess。假如用户问卷调查数据描绘一群人的生活形态，就像下图的感觉，模糊大概知道是两个人，但有点看不清。

2 DNA级用户画像：直达用户内心

若回想为何看不清用户形态，总结原因有两个：

①笔触太粗：即我们提问指标不够多，问卷调查一般可覆盖用户生活形态的100个指标，但在这100个指标中找出有效指标，估计不到10个。

②颜色太少：很多时候我们仅能问用户是否喜欢某件事情（2选项），或根据“非常喜欢”、“喜欢”、”一般“、”不喜欢“、”非常不喜欢“（5选项），甚至评分制（10选项），用户根据自己感知打分，敏感度还是有限的。一般情况下，像评分制，用户根据自己感觉打分，一般仅能区分5-6级别差异。但现实世界是，在一件事情态度上，可以有几千种态度差异，后面会讲述。

（2）外部调查数据与内部后台数据结合法

后来我们尝试将用户后台数据全部提取，大约有300-500个指标。但受信息安全限制，我们仅能拿到自己和合作部门数据，而电商数据、豆瓣阅读喜欢的数据，基本都是缺乏的。

不过有了后台数据，用户画像是稍微清晰点。这里清晰并不单是数据指标多，而是纬度更多。因为这300个指标中，经过因子分析，我们发现用户尽在10个纬度上是有差异。意思是说，这300个指标可整合为10个指标，来描述用户差异，其余大部分指标都是基于这10个指标演变而成。下面可以概括有哪些指标：

年龄相关：年龄、学历、职业、收入强相关
活跃相关：登陆数、关系链数、C2C消息数、群数、群消息数强相关
付费习惯相关：各钻开通纪录、财付通充值消费等强相关
等级相关：Q龄、现有等级、每天加速
……

经过更多纬度，我们可将用户画像描写得更细，如下图。现在大家还是猜得他们是谁？相信很多人会猜到是一个成年男人和小孩，但不太确定他们特质。这就是将外部调研数据和内部后台数据结合输出的用户画像报告。

3 DNA级用户画像：直达用户内心

（3）文本挖掘法

经过后台数据补充，我们可以发现更多有区隔性的特征指标，但用户内心诉求还是不太清楚。在这个时候，我们跟微趋势团队探讨如何利用文本挖掘技术，来还原用户画像。

抽象地理解，我们想让每个点不仅是黑白两个颜色，而是有6万4千多个的真彩色。转换成操作方法，就是在一个事情态度上，我们不希望仅检测用户用户是否喜欢，而是检测到他喜欢哪些东西。但这里有几个挑战点：

豆瓣、电商、大众点评有详细用户偏好数据，不单止知道用户喜欢阅读玄幻小说，还知道他喜欢看那几本，如70后，80后，90后喜欢言情小说是不一样的。而我们是缺乏这些生活类数据。
腾讯优势在于SNS，用户数据就是UGC内容。那么，我们能否拿UGC的内容，分析用户常提及哪些关键字，以此判断用户的特征？

于是，我整理了两个样本，分别是100w会员用户和100w非会员用户，提取最近一个月在腾讯微博所发布文本内容，用微趋势系统做文本挖掘，看看用户常提及那些词。

操作流程是顺利的，但微博文本中存在大量广告杂质，几乎占据整体数据量50%。即使经过数据筛选清洗，用户高频次的词往往集中在两块：

生活用词：如知道,没有,可以,喜欢,开心,幸福,流泪,需要,觉得,希望等。这些词是日常用，故提及率很高，但缺乏具体的含义。

最近流行词（又称新词）：如特么,光棍节,牛逼,期中考试,黄钻,年费,呃呃呃呃呃,微博,坑爹,洗个澡。这些新词是基于对比原有词库，机器发现最近出现很多，但受节假日、活动运营、广告等因素严重影响，并非用户原始想法，故有效性也很低。

看来，在无限定主题情况下，用机器挖掘高频次热词来归纳用户特征是困难，微趋势文本挖掘技术更适合在特定关键词下一级关联分析，如QQ会员用户经常提及斗战神，微趋势可以分析用户在提及斗战神时候，关联提及哪些热词，那么我们就知道他们对斗战神的想法是什么。这非常适合做专题分析和传播。

（4）热词反查法

假如在没主题或关键字限制情况下，机器挖热词是困难的，那么我们能否反过来，拿我们想测试热词列表，反过来计算每个词被提及的频次？于是，我们根据百度风云榜（http://top.baidu.com/）整理一份热词表，共有2300个当下热词，来分析用户提及哪些词语/事物更多，以此作为用户画像标签。

413 DNA级用户画像：直达用户内心

我们计算会员用户不同年龄的提及热词的差异，找出不同年龄会员用户关注哪些类目（如科幻片、喜剧片、剧情片），还算出不同年龄用户分别喜欢看哪些不同的科幻片（如13-15岁喜欢看雷神2，23-29岁喜欢看速度与激情）。通过这次用户喜好数据，我们就得出QQ会员用户画像及心理诉求。

到此，我们可以看到在某一个纬度上面，用户有千万种态度。用户画像也更加colorful和清晰。好吧，看得出是林志颖和kimi：）

5 DNA级用户画像：直达用户内心

回顾我们日常语言内容，会受到两个因素影响：

①社会流行：如最近流行电影、电视剧、段子、口头禅、网络新词等等。这些语言不管什么人都喜欢使用，成了社会流行。所以，我们日常生活中会提及很多社会流行事物。这些词语的特点是提及率高，用户间无差异。

②个人因素：70后和90后的说话词语是不一样，这是受年龄因素影响；屌丝和白富美说话内容是不一样，这是受经济因素影响。所以，我们可根据某群体的高频提及关键字，来作为这群用户的标签。

所以，若要找出不同年龄的QQ会员用户差异，通过“该年龄会员用户提及该词频次/会员用户提及该词频次”公式即可实现。

在统计关键字提及频次方面，有以下注意事项：

①关键词太长：用户会较少提及，如饥饿游戏2星火燎原，很多人会在微博上输入全称，故我们将关键字缩短，改为饥饿游戏2。

②关键词过于常见：如最近一部电视剧叫《晴天》。用户在微博上会因日常生活常提及这个词，故我们得剔除，不纳入分析。

③品牌词：微博上广告内容占总体信息量50%，拿品牌词统计关键字提及频次难以客观。

最后，利用热词表的提及频次来描述用户画像，他的优点和缺点在于同一地方。优点是，我们可以拿不同项目类型热词表，来查看用户在某个类目上的态度，如航空公司名称、牙膏牌子。只要热词越独特，其统计经准确性越高。只要有一批用户微博文本内容，我们就可以扩展很多类目描绘。但它的缺点是一致的，就是我们得整理出一份全面的热词表，且每个热词都有自己的独特性和当下流行性，不能像企鹅、老虎那样通用。

四、未来是大数据？

刚才提及，用户淘宝的购物数据、豆瓣电影/阅读数据、阿玛逊和当当的书单、百度关键词，用这些数据来描绘用户画像会更加清晰。原因是他们的数据更加精准，是用户喜好、搜索、购买行为数据，故百度、阿玛逊和豆瓣推荐一般都很精准。

其实，在大数据这个词发明之前，统计学、数据挖掘学都发展很多年。以前我们会用大量数据来做关联分析（如买啤酒的人倾向买纸尿布），或做聚类分析（如开通QQ会员有4个细分市场）。所以大数据并不是什么新鲜的事情。只是回到我们第一个问题，我们需要解决问题，只是用户画像，而不是预估用户下一次购买的商品。所以我们的数据精度就没有那么吹毛求疵。

当然，我们自身也没这块数据，也是不足。其实，说这段话的意思是，做调研，做什么事情，可以多尝试，但有时候得回过头来看，我们的问题或目标是什么，而方法招式都是辅助的。

最后，POST一下照片原图，看看他们的帅照，哈哈。

612 DNA级用户画像：直达用户内心