当我们与不同行业的合作伙伴一起设计基于机器学习的解决方案时,我们发现已有的解决方案通常情况下是不适合的,这是为什么呢?
首先,每当我们问到机器学习专家们(专长于预测模型训练和测试的数据科学家们),在工作中最困难的部分,被一次次提及的答案是——“数据杂乱无章”。一开始,从字面意思上理解,我们认为这是一个经典的数据问题——数据缺失或者数据库之间缺乏一致性。随着我们的进一步挖掘,我们意识到该问题和经典的数据问题略有不同,两者面临的数据形式有一定的区别。企业的原始数据(Raw data),甚至是干净数据(Cleandata:在Raw data的基础上,进一步处理后得到的数据)量多且复杂,即使是专家,第一眼也很难理解这些数据。因为这样的数据有太多的数据表和字段,同时数据的粒度又非常高(例如,在线点击流每一次点击都会生成新数据、传感器每秒会进行125次的数据收集)。而机器学习专家们通常习惯使用聚合过后的,有用的数据,例如一个用户访问过的网站数目,而不是用户在某个网站上的行为数据表。
与此同时,我们经常听到商业专家抱怨“我们有大量的数据,但没有通过这些数据做成任何事”。更深入的调查显示这种说法也不完全对。而这种挫败感主要来源于两个方面。
一方面是由于时间问题。由于机器学习中,理解、规划及处理数据等一系列过程所需要花费的时间,机器学习专家常常更加关注流程的后面部分——尝试不同的模型或者在问题制定完成后,调整模型参数,而不是针对不同的商业问题制定新的预测模型。因此,当商业专家想到某个新的问题时,机器学习专家无法做到总是及时跟上他们的步伐。
另一方面,经常来说,机器学习专家并没有围绕着“产生商业价值”,这一建模的最终目标,来展开工作。在大部分情况下,预测模型旨在提高效率、增加收益或者减少支出。但实际上,建立模型的工作者却很少问这样的问题“这个预测模型提供的价值是什么?我们又该如何去量化其价值?”。思考这一价值导向的问题常常会改变最初的问题规划(problem formulation),通常情况下比建模后期再进行过程调整更加有用。最近在一个机器学习爱好者小组中,我向约150名观众进行了调查,当问到“有多人建立过机器学习模型?”大约有三分之一的人举了手。紧接着,当我问到“有多少人真正应用自己建立的模型产生价值,并量化模型产出价值?”时,所有人的手都放下了。
换句话说,机器学习专家更倾向于将时间花在构建模型上,而不是处理海量数据集或者将商业问题转化为预测问题。无独有偶,当前的技术环境,无论是商业还是学术,关注点都在实现更加复杂的模型(LVM潜变量模型)、模型学习算法(分布式计算),或者微调(贝叶斯优化)。本质上,这些都属于数据科学项目后期的过程。然而,按照我们的经验,我们认为这些关注点并不是最恰当的。
如果公司想要从数据中获得价值,需要将重点放在加速对数据的人为理解,在短时间内调整可构建的模型问题数量以及预测这些模型所的成效。在与公司的合作中,我们得出结论,想要通过机器学习带来真正的改变,需要将重点放在以下四个方面:
专注于上述四个目标,准确理解数据科学家如何与数据交互,以及项目瓶颈之所在,帮助我们成功启动了MIT的“TheHuman-Data Interaction Project”项目。
我们的目标是快速探索预测模型,并将这些模型应用于解决真实企业中的实际问题。这些模型简单,同时自动化让非专业的用户也能够在几个小时内建立成百甚至上千个预测模型。而这在今天,通常需要花费专家们一整个月的时间才能做到。
注:本文来源纽约数据科学学院
原创文章,作者:爱运营,如若转载,请注明出处:https://www.iyunying.org/seo/dataanalysis/91264.html