为何企业无法从数据科学中真正获得价值？

爱运营 • 2017年1月4日下午3:12 • 数据分析

当今企业拥有越来越多的数据，但这些数据并没有完全被转化成可操作的信息。在过去的几年里，我和我的MIT调查小组一直在寻找一个基本问题的答案：如何让企业通过机器学习，将蕴藏于其数据储存内的潜能全部释放出来。

当我们与不同行业的合作伙伴一起设计基于机器学习的解决方案时，我们发现已有的解决方案通常情况下是不适合的，这是为什么呢？

首先，每当我们问到机器学习专家们（专长于预测模型训练和测试的数据科学家们），在工作中最困难的部分，被一次次提及的答案是——“数据杂乱无章”。一开始，从字面意思上理解，我们认为这是一个经典的数据问题——数据缺失或者数据库之间缺乏一致性。随着我们的进一步挖掘，我们意识到该问题和经典的数据问题略有不同，两者面临的数据形式有一定的区别。企业的原始数据（Raw data），甚至是干净数据（Cleandata：在Raw data的基础上，进一步处理后得到的数据）量多且复杂，即使是专家，第一眼也很难理解这些数据。因为这样的数据有太多的数据表和字段，同时数据的粒度又非常高（例如，在线点击流每一次点击都会生成新数据、传感器每秒会进行125次的数据收集）。而机器学习专家们通常习惯使用聚合过后的，有用的数据，例如一个用户访问过的网站数目，而不是用户在某个网站上的行为数据表。

与此同时，我们经常听到商业专家抱怨“我们有大量的数据，但没有通过这些数据做成任何事”。更深入的调查显示这种说法也不完全对。而这种挫败感主要来源于两个方面。

一方面是由于时间问题。由于机器学习中，理解、规划及处理数据等一系列过程所需要花费的时间，机器学习专家常常更加关注流程的后面部分——尝试不同的模型或者在问题制定完成后，调整模型参数，而不是针对不同的商业问题制定新的预测模型。因此，当商业专家想到某个新的问题时，机器学习专家无法做到总是及时跟上他们的步伐。

另一方面，经常来说，机器学习专家并没有围绕着“产生商业价值”，这一建模的最终目标，来展开工作。在大部分情况下，预测模型旨在提高效率、增加收益或者减少支出。但实际上，建立模型的工作者却很少问这样的问题“这个预测模型提供的价值是什么？我们又该如何去量化其价值？”。思考这一价值导向的问题常常会改变最初的问题规划（problem formulation），通常情况下比建模后期再进行过程调整更加有用。最近在一个机器学习爱好者小组中，我向约150名观众进行了调查，当问到“有多人建立过机器学习模型？”大约有三分之一的人举了手。紧接着，当我问到“有多少人真正应用自己建立的模型产生价值，并量化模型产出价值？”时，所有人的手都放下了。

换句话说，机器学习专家更倾向于将时间花在构建模型上，而不是处理海量数据集或者将商业问题转化为预测问题。无独有偶，当前的技术环境，无论是商业还是学术，关注点都在实现更加复杂的模型（LVM潜变量模型）、模型学习算法（分布式计算），或者微调（贝叶斯优化）。本质上，这些都属于数据科学项目后期的过程。然而，按照我们的经验，我们认为这些关注点并不是最恰当的。

如果公司想要从数据中获得价值，需要将重点放在加速对数据的人为理解，在短时间内调整可构建的模型问题数量以及预测这些模型所的成效。在与公司的合作中，我们得出结论，想要通过机器学习带来真正的改变，需要将重点放在以下四个方面：

坚持简单的模型

简单的模型，例如逻辑回归、基于随机森林或者决策树的模型。这些模型已经足够解决手头上的任务。关键是减少数据采集时间，尽早进行第一个简单预测模型的开发。

探索更多的问题

数据科学家需要有能够快速而简单的定义和探索多个预测模型的能力。公司应该探索更多的商业问题，为每一个商业问题建立一个简单的预测模型，并评估其价值，而不是用超级复杂的机器学习模型去探索仅仅一个商业问题。

从数据样本中而不是全部的数据中学习

不要过多的关注如何使用分布式计算让任何一个处理模型都能进行大数据处理，而是在能够从子样本数据中导出相似结论的技术上进行投资。规避大量计算资源的使用，将会给予我们更多的空间去探索更多的假设。

关注自动化

为减少第一个预测模型产生的时间和加快探索的速度，公司必须能够自动化处理在正常情况下需要人工完成的过程。通过在不同数据问题上的反复探索，我们发现很多时候都在使用相似的数据处理技术，无论是将数据转化为有用的聚合数据，还是为预测模型准备数据。是时候流水线化这些任务，开发算法和软件，使这些过程能够自动化完成。

专注于上述四个目标，准确理解数据科学家如何与数据交互，以及项目瓶颈之所在，帮助我们成功启动了MIT的“TheHuman-Data Interaction Project”项目。

我们的目标是快速探索预测模型，并将这些模型应用于解决真实企业中的实际问题。这些模型简单，同时自动化让非专业的用户也能够在几个小时内建立成百甚至上千个预测模型。而这在今天，通常需要花费专家们一整个月的时间才能做到。

注：本文来源纽约数据科学学院

原创文章，作者：爱运营，如若转载，请注明出处：https://www.iyunying.org/seo/dataanalysis/91264.html