“数据科学机”——大数据自动化分析新成果

“数据科学机”——大数据自动化分析新成果


图片说明:大数据无处不在,当你打开电视收看体育赛事时,当你拿着手机玩网游时,当你看全国各地美食分布图时,无形的数据已经围绕你形成了一个流通的气场。而目前最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息 图片来源:68dl.com

数据分析是一个发掘隐藏模块的过程,其搜索技术具有一定的预测能力,但选取数据的哪些“特征”来分析通常还取决于人的直觉。比如,一个商家的数据库包括促销日期和每周盈利的起止日期,日期跨度和平均利润的数据可能比日期和总利润更重要,这其中充满了人为因素。

麻省理工大学(MIT)研究人员在一项新的研究项目中排除了大数据分析中的人为因素,他们设计出的新系统不仅能搜索特定的模块,还能自行设计特征集,同时在全新的数据中找出预测模式。为了测试这个系统的首个原型机,他们参加了三项数据竞赛,这台“数据科学机”在比赛中与人类团队竞争,在906支团队中最终击败了615位对手。在其中的两项比赛中,该系统预测的准确率分别达到了冠军团队的94%和96%,只有一项比赛的准确率比较低,为87%。但考虑到人类团队一般要在预测算法上耗费几个月的时间,而机器只用了2-12个小时就完成了每项计算条目,这个比赛结果已经出乎所有人的意料。对此研发人员表示,“数据科学机”是对人类智能的补充,网络中有太多的数据有待分析,该机器的研发开启了大数据分析的全新起点。

麻省理工大学计算机科学和人工智能实验室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的全方位学习团队(Anyscale Learning for All)致力于研究将机器学习技巧应用到大数据分析中的方法,他们的努力解决了很多实际问题。比如,分析风力发电厂的选址,或者判断哪些学生有退出在线课程的可能。在解决实际数据问题的过程中,研究人员表示,其中最重要的一步是特征设计,即分辨出需要从数据库中抽取或编写哪些变量。比如,系统在预测退学时会考量两个重要指标,一个是学生在距离作业提交截止日期前多少天开始做作业,另一个是和其同学相比这名学生在课程页面停留的时长。在线学习平台一般都不会记录这两个指标的任何数据,但“数据科学机”会收集其他可以推测出这些指标的相关数据。

特征导向的编写

研究人员使用几种不同方法编写数据分析的待选特征,其中之一是利用数据库设计固有的结构关系,数据库一般会把不同类型的数据存在不同的表单中,并用数值标识符表示它们之间的关联。“数据科学机”可以追踪到这些关联,并把它们作为编写特征的提示。

例如,表1可能列出商品条目及其价格,表2中则列有每个顾客购买的商品条目。“数据科学机”首先把表1的价格导入表2,然后从表2的多个不同条目的关联中找到提示,经过一系列运算生成一些待选特征——每个订单的总价、平均价格、最低价格等。随着数值标识符在表间累积,机器通过运算得到平均值的最小值、总和的平均值等。

“数据科学机”还能找出一定范围内的分类数据,例如星期数或品牌名称,然后通过类别区分已生成的特征,生成更多的待选特征。一旦生成待选特征,机器会辨识出取值有意义的特征并减少特征数量,再通过不同方法组合缩减过样本数据的特征集以优化预测的准确性。

业内研究人员表示,“数据科学机”的出现意义重大,它将最先进的技术应用在解决实际问题上,提供了看待问题的全新方法,有望成为最新行业标准。

via:科学之家

去年今日运营文章

  1. 2023:  2022华润置地品牌战略及抖音视频号运营方案(0)
  2. 2023:  2023成都KTV开业盛典活动策划方案(0)
  3. 2023:  2023禅院民宿商业计划书【文旅】【民宿】【酒店住宿】(0)
  4. 2023:  互联网公司薪资年薪40万,实际到手有多少?(0)
  5. 2023:  《100个思维模型系列》053.头脑开放思维模型(0)

原创文章,作者:199it,如若转载,请注明出处:https://www.iyunying.org/seo/dataanalysis/31308.html

(0)
199it199it投稿者
上一篇 2015年11月2日 下午5:45
下一篇 2015年11月2日 下午5:45

推荐资讯

发表回复

登录后才能评论
分享本页
返回顶部