人人都在说谎

书籍信息

全书名：《人人都在说谎：赤裸裸的数据真相》

原书名：《Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are》

作者名：[美] 赛思·斯蒂芬斯-达维多维茨

译者名：胡晓姣，张晨，左润男

出版方：中信出版集团

ISBN：9787508693873

前言

你真的认为人们的匿名表达就代表了他们的真实想法吗？每个人都会基于让大脑有更好的感受去说谎，让我们看看人们有多么会说谎。

一、认知以外的事实

人们的主观在很多时候都极不靠谱，有时候我们能意识到，是为了更好的大脑体验而刻意不靠谱。但有时候意识不到，是以为自己靠谱但事实上不靠谱。

有一个关于一年平均过多少次性生活的调查，明明是不记名投票，照理说应该是能反映真实情况，但人们在这样的匿名调查中还是会说谎，光「写下来让大脑感知」这件事，人们就已经要为照顾大脑的体验而不惜说谎了。

根据避孕套的销售个数等多重因素的大数据综合判断下，女性填的数字平均比真实数字要多2倍以上，而男性则是3倍以上。

为什么我们常说「大数据比我们自己更了解我们」，那是因为我们对自己常常不那么诚实，或者有时候我们以为自己是对的但其实是错的。

比如找对象，父母长辈常常会基于一些「人生经验」来为年轻人提供建议，强势点的父母甚至会直接做孩子的主。

长辈们为何可以这样自信？因为他们的大脑也是数据中心，他们认为自己见过足够多的人和足够多种类的婚姻方式，于是当他们判断你是什么类型的人时，就会跟自己数据库里的某一个案例进行比对——若对方是幸福的，则你就应该找这样的；若对方不幸福，则你就不可以找这样的。

但这里有三个问题：

1对方是否幸福只是表面，外人不可能了解内在；

2我们其实并不了解那些人，所以所谓的类比经常是基于某个维度上的自以为相似；

3我们的数据库实在太小了却不自知。

有些事的总数据库很小，自然有人可以遍历多数情形，从而在这个专业领域拥有足够强和精准的「直觉」。但有些事的总数据库无比庞大，如果在这些事上，每个人基于个人经验的小数据库去给他人提供建议，难免就像盲人摸象的故事里一样，摸到腿说大象像柱子，摸到尾巴说大象像绳子。

二、大脑不反映客观事实

我们以为大脑会尽量「查明真相」，然后向我们汇报世界的客观情况，但事实上却并非如此。

大脑向我们反馈的，只是它自己认为对生存有利的信息。如果客观情况被我们知晓以后它判断可能对生存不利，它就会自己把信息美化好、修改好，再输入到我们这里，可是此时它让我们接收到的就是错误信息了。

那有人可能觉得我们为什么要了解客观真实，只要对生存有利不就行了？大脑这么自动帮我们修改信息还不好吗？

不好，因为我们的环境已经越来越复杂，复杂到我们通过无意识加工的简单脑回路在很多时候都判断不出眼前的信息到底是对生存有没有利。比如「酸葡萄心理」，原先只是自我安慰，为了让自己减少负面情绪，但在越来越复杂的场景下，很多时候酸葡萄带来的心理收益很可能会导致潜在的现实收益的损失。

再比如我们对一些观感强烈的画面会不自觉地涌起强烈的情绪，或喜悦或惊悚或揪心，它们会长久地刻在记忆里，让我们高估其发生的概率——大脑要的就是这个效果，让我们可以多做或者避免这些事。

但我们高估了它们的概率，就容易低估其他「竞争事项」的概率，比如我们会极大地关注一些恶性事件发生的概率，从而认为社会很不安全，影响到正常的生产生活，最终导致经济下滑后因其他问题死亡的人数反而多出几百上千倍。

再比如很多人觉得某些自闭或者很难正常交流的人必然拥有一些特别强的才能，因为我们听多了这样的故事，大脑对各种故事情节耳熟能详。但其实如果你真的去统计大数据，会发现根本没有这样的事，而且就算有才能往往也不是人们想象中的那种人群中的顶级，而是和他自己其他低于正常人水准的才能相比算好而已。

当我们输入外在信息并进行存储、加工的时候，我们要明白当我们意识到这些信息的存在时，都很可能已经不是客观事实了，不要过于倚仗。

如果你希望得到一些更精准的信息，去问大数据。

三、相关性维度

大数据能够知道一些我们不知道或者我们原先并不认为的事情，比如大多数人都不会承认自己变态，但从搜索引擎和页面点击的大数据中，清楚地反映出人们偶尔会有哪些不想告诉别人的阴暗想法。

大数据体现的结果是比我们的主观更可信的，但大数据要真正起作用，设定「数据收集的维度」非常重要。

换言之，数据虽然客观，但它们的维度有无数个，哪些是我们要集中收集并对最后的分析结果有帮助的，这至少在目前只能由人工去完成（不排除未来这一步也可以由人工智能完成）。

「设定数据收集维度」和「数据本身」的关系是相互影响的，只有先设定数据收集维度，才能在一堆无意义或者多意义的数据里抽离出想要的部分，而只有用海量的、想要的数据去验证与结果的相关性，才能确定该数据收集维度的正确性。

书里有个关于相马的例子。我们都知道，如果一个人能够看得出哪匹马跑得快，能够测得出哪匹马未来有机会在速度和耐力上超越其他马，那么这个人一定可以在赛马的某个流程环节中（比如拍卖马匹、下注等）找到巨额的收益空间。可问题是这怎么才能做到？

塞德开了一家公司，有一次被一位想要相马的富豪雇为专家团队负责人，他负责帮富豪在拍卖会上买到一匹真正的好马。传统的相马技巧看似被很多人追捧，但显然没用，因为塞德一上来就用大数据把这些技巧全部跑了个遍，发现跟胜利并不怎么相关。

当时的人们除了看马的外在形象以外，还愿意用「血统」去衡量马的未来成就，因为大家当时都相信爱因斯坦能生下另一个爱因斯坦，但这显然也偏得离谱，如果你是 NBA 老板，你在迈克尔·乔丹的儿子们出生前就签下他们，显然肯定已经赔到底儿掉。在大数据分析之下，所谓血统和胜利几乎没什么相关性，对买马或者下注结果也产生不了什么决策上的优势。

塞德绞尽脑汁，把无数维度都用大数据测试了一遍，比如收集鼻孔大小、做心电图、砍下死马的四肢去研究快速抽动的肌肉体积、测量马粪大小、马的体重等等，发现都没有用。

最终，他找到了一个有相关性的维度，那就是马的内脏大小，比如尤其是左心室和脾脏越大的马就越强。同时，他还做了另一些维度的数据收集，比如他从一开始就先排除那些开跑不久就喘息的马，这也是大数据告诉他的。

最终，他帮雇主选中了一匹三冠王。

从塞德的例子里，我们也可以类比到公司的招聘。可以说一般一个成熟的招聘者，除非实在面试不过来，才会用学历的方式作为门槛，因为能比随机选择好一丁点就成。但如果 TA 有充足的时间，就完全不会看学历，尤其是大学及以上学历，能力差别是不容易从学历和毕业院校中反映出来的，目前合作得最趁手的就是毕业于普通大学，吊打一众高学历。

人们有学历崇拜，往往是由于那些面试不过来的公司会用学历作为门槛，所以人们误以为不同学历之间工作能力和出来的工作成效会相差很大，但其实并不是，它们的差别在大数据中并没有那么大，因为工作中要用到的能力和校园里的截然不同。

而用人单位要掌握的就必须是一整套筛选优秀的、适合自己公司的员工的方法，要从过去的员工特点和员工表现的相关性中总结出属于自己的判断维度，这样就可以像塞德说的：「一匹血统好的马有那么一丝机会是一匹好马，但我为什么要赌呢？如果我有能力看出眼前的是不是一匹好马，我又何必多此一举去在意它的出身？」

四、戳穿美丽的泡沫

大数据能告诉我们的事情太多了，这取决于我们想知道什么。而且越多维度里的越多完整信息，尽管人类不觉得他们有什么相关，但对大数据来说，它们就是能相互碰撞和印证，这一切只是由于人类的大脑无法计算太多复杂的逻辑联系。

我们在现实生活中可能很少听到抱怨「后悔生孩子」之类的说法，就算有也是少部分的年轻人，大多数有孩子的人还是愿意陈述有孩子的好处。但大数据却告诉我们，搜索「后悔生孩子」的人数比例极大。之所以有孩子的人们平时都愿意陈述有孩子的好处，除了少数真的认为很好以外，大抵还有以下三种心态：

1既然无法改变，不如享受情绪，多想想好处；

2不在其他人面前表露出后悔情绪；

3引导别人生孩子，把别人纳入自己的群体。

永远不要相信人们说的话，无论他们有多么信誓旦旦，除非用大数据来证明他们在无人监视面对自己内心的时候还能表里如一。

在谷歌的搜索排行中，「想要杀死______正常吗？」的空白部分第一补全建议竟然是「我的家人」！而「我的丈夫是不是_____」的空白部分第一补全建议是「同性恋」，比第二名「出轨了」高出10%，是「酒鬼」的8倍，是「抑郁」的10倍。

在美国，搜索「黑鬼」的频率跟「偏头痛」和「经济学家」一样多，这很不可思议，因为美国看起来是一个十分在意种族歧视，且大部分人都反对种族歧视的地方。在特朗普大选前，社交媒体上的调研显示他几乎毫无当选的希望，但人们非有意地在私密场合的表态和搜索痕迹，却展现了截然不同的状况。

Facebook 在上线「好友动态的消息推送」功能后受到了几十万人的联合抵制，但扎克伯格并不担心，因为他拥有着比人们的口号更真实的数据——人们其实喜欢消息推送，就连那些参加反消息推送运动的人，获得的消息来源也是他们的朋友参加了这项运动然后推给了他们。

当我们问人们最近几天准备去看什么电影时，人们会说出一些有品味的、立意深远的电影，但过几天人们却购买了低俗喜剧片或小清新爱情片的票——为什么人们无法承认这一点？

所以我们刚说过永远不要相信人们的公开表达，除非被大数据证实。

五、利用大数据盈利

大数据「监控」着人们的所有行为，当然掌握着数据的一方就可以更精准地定位人群，以便满足他们的个性化需求，进行个性化营销，然后「榨取最大的利润」。

最早做这件事的是金融机构，通过对一个人的信用行为进行多维度的收集，然后想尽办法让他借到他能还得起的最大金额，赚取最大利润。后来其他领域的企业也都学会了，开始将阶梯价格的服务分层次推送给不同支付能力的客户。

赌场也是一样，现代赌场能够根据一个人多维度的多次重复行为制作这个人的画像，再和其他相似画像赌徒进行数据碰撞，从而得出这个人最大能承受多少金额的损失——在这个损失之后，他将有一段时间不会迈入赌场。

于是赌场就会控制他在输到那个金额前，及时地送上免费餐食、甜点，让其到另一处享用，避免他一次性输得过多——你以为这是优质的服务，其实都是大数据陷阱。

后记

人人都在说谎，只有大数据不会说谎，只要数据足够多，甚至可以不需要理会少数数据源的真假。显然，未来是一个更相信数据而不是人们主观表达的时代。

本文转载于网络，本文观点不代表爱运营立场，转载请联系原出处。如内容、图片有任何版权问题，请联系爱运营处理。

人人都在说谎

发表回复