研究数据分析时需要关注的8个基础点

上大学时，我和另一个姑娘（某理科大神）经常搭伙做饭。有天我俩一起去超市买油，站在琳琅满目的货架前，我直接拎起一瓶，冲她叫：“就拿这瓶吧，最便宜！”姑娘白了我一眼，转头说道：“克单价一点都不便宜好不好！数学是体育老师教的吧？”接着眼神刷刷两下扫完整个货架，心算完毕，拎起另一瓶说：“这克单价最便宜，拿这个！”我当时就囧了，讪讪地拎起油，念叨着：总金额不便宜呢……

大千世界当中，我们总是需要“数据”去辅助下判断、做抉择。生活当中，可能仅需要描述性数据就足够了，比如你买油是看克单价还是总金额。但工作当中，却必须深谙各种复杂的数据分析方法，数据成为建功立业、奖惩论责的重要手段。数据本身是客观的，但如何捯饬数据，却是主观的。数据可以“作弊”，可以有“偏见”，也可以用来糊弄别人，麻痹自己。

所以，知道数据的把戏，比机械地完成数据，对工作的实践意义更大，至少可以保证我们不会被数据“玩弄”：

第一，数据的计量单位和范畴很重要

你买油是按照克单价？还是总金额？这个例子比较简单。实际工作中比这个要复杂很多，比如销售人员的绩效如何评估——应该按照总销售额，还是可比店的销售额？是按照所有产品的销售额？还是新品的销售额？是按照单店绩效？还是单人绩效？是按照工作时间内的绩效？还是不计工作时间、将加班时间也计算在内的绩效？如果是跨国公司，还涉及到用人民币、还是美元计算？

计量单位的不同、测算范畴的不同，得出的结果也就不同——所以，公司开绩效评估大会或者任务指标分配大会，一般就是打数据仗，然后你会发现，结局往往不取决于最准确的数据，而取决于最大的嗓门……

第二，中位数和平均数是有区别的

平均数是一个非常强大的描述性统计数据，也被广泛用于各种判断当中，比如时不时会有新闻说“房价在涨”、“我国平均收入水平上升XXX”，“某某学校的升学率高达90%”……平均数最大的问题是，忽略了偏离方差的“异常值”——比如马云的收入就是个异常值。这个时候，就需要再看一看中位数。

每一次销售会，我们会看几个主要数据，类似“单人产量”“单店产量”“流失率”等等。然而，在对这些数据下结论的时候，我们得万分谨慎，因为一方面，它取决于计量单位和范畴，另一方面，还得均衡的看平均数和中位数。如此才能甄别出来，哪些是由于“异常值”造成的偶然现象，而哪些是一直存在的普遍现象，防止看错问题冤枉人。当然有一种情况是不需要区分中位数和平均数的，比如今年北大古生物专业的毕业生就业率（就一个姑娘）。

第三，权重很重要

每个企业的绩效评估方法可能不一样，但逻辑应该相似，对所有衡量指标设置不同权重后，进行综合评估。当然，对于那种只有一个指标（老板心情指标）的公司，统计学表示很无力。

除了绩效评估，最常用“权重”的就是生意预测。不同要素对生意结果的影响力不同，且随时间而变，比如打广告、公关活动、或者店内促销，哪个对生意贡献最大？哪一种具体的广告形式对生意贡献最大？是不是赞助《中国好声音》就一定比投放传统电视广告，带来的销量更大？只有我们知道不同因素的权重，才会做成更加科学的投资决策。

第四，数据往往只能说明现象，很难说明动机、或者背后原因

销售额下降了，怎么办？相信大多数销售都会抓狂，开始马不停蹄的琢磨问题解决之道了。但去年我听到了一句特别洒脱的话：“销量下降，有时候只是个现象，并不一定是问题。你怎么知道这不是我们有意为之的呢？”呃…好吧，这豁达和深刻，不是我等凡夫俗子能理解的。

数据往往只表达一种结果。如果想要知道数据背后的动机和原因，还要借助更复杂的统计学手段、或者非数据手段。主动为之的“坏数据”以及被动承受的“坏数据”，两者之间的动机差异，会造成迥然不同的行为结果。比如有一次销售会议，某区域负责人指着自己惨淡的员工流失率指标，轻描淡写的解释说：“高流失率是我主动淘汰了一些人，因XXX原因，下个季度新人马上到岗。”想象一下，如果我们不了解这个动机，可能这位区域负责人就要蹲小黑屋了。

第五，数据的精确不一定代表准确

最经典的例子就是收入数据。经常有报道说：公务员收入其实很低，劝大家不要错怪公务员。但问题是，工资收入是低，但非工资收入可能不低。当然，这种情况不仅限于公共组织。其实无论任何组织，只要挣的花的不是自己的钱，就都可能出现这种“工资不等于收入”的情况。

在具体业务中，“精确不等于准确”可能出现在两种情境中——总结归纳、分析预测。

比如消费者调研，一般都会有定性和定量两种方法。如果没有定性分析，定量分析就可能陷入“虚假精确”的陷阱。如果你的调研对象有问题，那么，就算再辛苦的计算和再精确的数据，其实都没有意义。又比如广告测试，精确的测试结果真的有实际意义吗？

又比如销量预测，每个人心里都明白，这是无法准确预测的，你只能无限接近，却不能完全准确，因为“预测未来”本来就是上帝才能搞定的事，所以我们能做的，只能是在保证方向准确的情况下，尽量精确。但也不必过于花费力气、苛求预测数据的精确，因为这不会增加多少实际意义，还不如花多点时间研究其他可操作性强的数据

总之，尽量避免追求虚假的准确和错误的确定性。

第六，相关性不一定是因果性

我老板的经典口头禅就是：“你们这些人，总是自说自话、以果推因分析法，错把相关性当成因果性，把偶然性当成必然性。”这句口头禅可真是太强大了，因为可应用范围颇广，躺枪几率也颇高，导致我们现在不得不日省三次：“有没有自说自话？有没有以果推因？”

以前还听过一个段子，一个领导手下的两个部门同时做生意报告。A部门搞不清楚自己生意为啥涨，B部门搞不清楚自己生意为啥降，结果最后的生意报告中，两个部门不约而同，提到了同一个原因——天气。只不过，A部门说，因为这段时间按天气冷导致A产品需求增大；B部门说，因为这段时间天气热导致B产品需求减少。我现在觉得吧，多亏这领导不是我老板，否则这两部门可以一起蹲小黑屋了。

这就是统计学最重要的价值——可以帮助我们排除无关因素，因为这些无关因素太容易让大家混淆了因果性和相关性的区别。

第七，被忽略的“大数定律”

有公司做新品上市的消费者调研时，最后需求是：只要超过45%的人喜欢，就决定上市这个新品。其实这压根不用调研了。如果这个新品和对照组的产品本身差距不明显的话，且样本量足够大，肯定会有50%的人喜欢，这就是大数定律的基本常识。

第八，数据是可以作弊的、是可以有偏见的

初三接近中考时，老师突然要调座位，而且这次不按学号、不按个子、也不按“好帮差”原则，而是直接按成绩调座位——成绩好的人坐左边两组，成绩不好的坐右边两组。当时我还很懵懂，不明白为啥非要在复习备考的紧张时刻折腾调座位，因为和我关系非常好的小伙伴们都被调到右边两组了。

后来我终于懂了。因为接下来的两周，右边座位的同学们，一个接一个的被老师叫走谈话，然后，又一个接一个的，退学了。我想我这辈子都忘不了，那些同学一声不吭的低头收拾完书包，佝偻着腰沉重的走出教室前，回头望过来的最后一眼。那种悲伤和无奈的眼神，让我至今想起来都心酸喉梗。然后，当年我校的升学率就非常高。

企业当中数据作弊和偏见也不少见，比如通过压低头一年的数据、使得第二年增长率更高；比如选择错误的样本数据做市场调研；又比如常见的会计数据作弊。

总之，数据的把戏大有乾坤。一方面，我们需要数据去分析问题、印证结论，没有数据的虚谈是没有意义的，也是很难有定论的。另一方面，数据不是全部，我们不能成为“数据教”的人。过于追求数据的完美精确，容易让我们忽略那些无法用数据表现的关键要素，比如人的态度、动机和精神气；也容易忽略企业的最终目标。其实，在不该使用数据的使用数据，可能比在该用数据的时候没有数据，结果更可怕。