ASO将如何被机器学习深刻改变?

 

写这篇文章是要冒风险的,比如说罗胖就被雷锋网花了整版吐槽,而我凭着一点机器学习的皮毛知识,来斗胆谈一下这门技术是如何在App Store和Google Play中被应用的,又如何重塑ASO的。作为推广人,如何拥抱这些变化。非专业出身,有谈的不对的地方,请多包涵!

人工智能最近确实不是一般的火,是太火了!哪怕普通老百姓都有感觉,Alpha Go狂扫人类高手60局,最强大脑中小度碾压水哥和王峰,一站到底中又出了个汪仔,凡是他们(注意,我没有使用它们)出现的地方,人类统统退居二线。

在没有深入了解机器学习之前,我看这些新闻不会有太大触动,但是一旦有了些许了解以后,就知道这确实是革命性的,最牛逼的是这些技术的适用范围之广令人咋舌,很快我就意识到它可以被应用到ASO上,果不其然!

因为机器学习是一个非常专业的领域,涉及大量的算法,这显然不是大家关心的,我尽量用通俗易懂的方式来讲述。如今Google已经成为这个领域的引领者,苹果稍显落后,因此下文中的内容会以谷歌已经正式刊发的文章为基石,而非我个人的猜测。至于苹果,我们相信会向Google看齐,使用的方法从原理上来说一定是差不多的。

首先,有必要介绍几个概念。

第一,机器学习程序到底和以往的程序有什么区别?

最核心的区别就是以往计算机是按照人类输入的固定程序去执行,当遇到程序中没有规定的情况时,就会崩溃或者没有输出。而机器学习就会为了应对这种情况,让计算机拥有人类一样的学习能力,举一反三。如今大热的无人驾驶技术就是一个典型的案例,路面上的情况千差万别,不可能事先按照程序设置来规定方向盘,油门和刹车的操作,一切都需要计算机根据当时的情况自己判断。

第二,计算机为什么拥有自己学习的能力?

说到底,这得归功于精准的算法和强大的计算能力,电脑处理问题的一切都要回归到概率和公式,机器把数据输入公式(算法),运算出一个最小误差结果。

用一个阿拉伯数字图像识别的例子来说明,随意给计算机一个数字,让他判断出来是几,那么首先要给他一些训练样本,计算机就会把每张图片像素化,比方说把像素统一处理到20*20,相当于400个像素,每个像素有一个灰度值,或者是RGB的值,那么就有400个或者是1200个输入值,输出就是0-9之间的一个数字,这些就是样本(已知输入和输出)。

感谢那些伟大的数学家,针对这种分类问题早就有了公式,打个最简单的比方,a0+a1*x1+a2*x2 = y这么一个公式,把已经的训练样本的x,y输入进去,然后找到参数a0,a1,a2的值,在这些值下面,y的输出和样本最为接近。那么这时候他就拥有了学习能力,当遇到新的样本时,就能够泛化(举一反三),判断出y是什么。当然,实际应用的公式和计算量会比这个复杂的多,但是原理如此。

这种通过人工事先给机器喂入一定已知样本(输入和输出已知)的学习方式叫做监督学习,目前已经非常成熟。更牛逼的一种无监督学习,指的是在不需要告知机器输出(往往是人类自己也很难判断),由机器自己通过样本的输入值去自动归纳。

第三,什么样的机器学习网络才算是成熟的?

就像是人一样,机器的智力水平也是有一定的梯度的,他们成熟的两个重要条件就是:好的算法和大量的数据,算法就好比大脑本身的基础条件,而数据就如外界的刺激,缺一不可。就好比从小就把爱因斯坦关在黑屋子里,他不可能成为巨匠,而就算给大猩猩再好的教育,它们也仅仅只能完成一些简单的任务。

因此,如Google和苹果这种大公司会占有天然的优势,有钱可以招到牛人改进算法,本身数据又特别丰富。

回到算法来说,之前提到的监督学习是第一阶段,目前很热的无监督学习是第二阶段,而还有一种更牛逼的技术叫做GAN(生成式对抗网络),这种网络由一个生成器和判断器构成,生成器负责生成一些迷惑性的数据,由判断器来判断真伪,有点像是左右手互搏,真是非常的干!貌似这种技术会有很广阔的应用场景,尤其是在互联网世界。

以上所说到的技术都是最基本的一些概念,但和我们下文真正要讲的有很大关系,而其它一些概念如神经网络因为不影响到文章内容,我就不去涉及,以免干扰大家的视线。

好了,铺垫了这么一大堆,到底机器学习是如何应用于App Store和GP的呢?今天我们主要就两个和ASO非常相关的领域展开,第一就是如何把关键词和App关联起来,第二就是作弊识别。

一、关键词

如何决定某个关键词和App的相关性,主要使用的是监督学习技术,事先给系统以大量的训练样本,但即使如谷歌和苹果这样的公司,也会面临样本量不够的情况,特别是一些细分领域。

谷歌的做法就是自己生产数据,生产的方式很有意思,首先把App和单个关键词形成组合,可以想象,这个数据量是非常大的,达到几十亿甚至百亿级别。然后雇佣一堆人去给每个组合打分,打分的标准有三个:相关,部分相关和不相关,在人类打分之后选择那些大家有很高共识的组合作为训练样本。貌似这种方法有些笨拙,但是确实是行业老大的做法。所以,数据是非常关键的,谷歌开源其深度学习平台TensorFlow,我想一定有搜集数据的打算。

当然,谷歌还是自然语言处理NLP的大师,有相当成熟的推演同义词和关联词的技术,和机器学习技术组合就可以完成某个App的关键词和相关程度的判断。相对来说,苹果在这个领域要落后一些。

这里面大家要非常注意,就是喂给系统的样本数据非常重要,也就是这些评分的人做出的判断是未来系统判断的基础。那么这些人都是从哪些维度去判断的呢,最主要就是标题,截图,描述,评论这些页面元素,这些都是基础ASO的范畴。我可以做一个大胆的判断,虽然现在在iOS中我们还要在后台去输入关键词,但随着机器的成熟,iTC后台的关键词域会被废除!机器会趋向于认为这些是人类故意设置的干扰项。

二、作弊识别

这一部分可能跟大家的关联更大,影响也更深远。

首先是审核阶段,我去年很早就提到过苹果在大力的发展智能审核系统来代替人工审核,这是审核加速的核心原因。而Google就更不要说了,不光会审核App中的文本,图片,还会检测APK的二进制码!相信苹果也在向谷歌靠拢,那么今后想在程序中加个开关之类的事情,风险就会越来越大。至于使用的技术,更多还是监督学习。

其次,更有意思的是评分和排名作弊识别。这时与系统互动的可是人类选手,一个最大的不同就是,人类会及时调整策略,试图去愚弄系统,如果按照监督学习的方式去训练机器,这些样本就会被人类选手利用,成为新的系统漏洞,因此就需要使用无监督学习去及时发现这些新的行为模式,生成新的训练样本喂给监督学习网络。

其实,有心的人可能意识到了,这种情况其实和之前提到的GAN想要解决的问题高度契合,因此也是谷歌投入血本研究的一个领域。NND(DNN是深度神经网络的缩写),还要不要人活了!

因此,在了解了本文的内容之后,你也许会恍然大悟为什么苹果最近经常锁榜,又为什么刷榜经历了史上最长的失效期,过去魔高一尺,道高一丈的斗法模式在机器学习到来之后会发生深刻的改变,天平在向苹果/谷歌一侧倾斜。

很多人也许会悲观,认为传统的ASO付费手段将会消失,不过我认为也许不会那么绝对,一是苹果的系统成熟还需要一点时间,二是水至清则无鱼,苹果也深谙这个道理,也许会给这个行业留下一个小口。

无论如何,17年ASO必将面临重大变局,技术能力一般的渠道生存会更加艰难。但是变化中其实孕育着机会,市场中也许会有新的玩家出现,互联网移动起来,节奏确实比原来快了3倍!

BTW,机器学习的英文缩写是ML,很多人觉得这个词相当性感,我深以为然。

          文章转载自沙铭(公众号:沙铭世界观)

 

去年今日运营文章

  1. 2018:  用数据驱动产品和运营 之 数据分析方法(0)
  2. 2018:  抖音会不会成为下一个营销战场?(0)
  3. 2018:  新媒体运营需要具备哪些素质?(0)
  4. 2018:  复盘 | 抖音是如何让你一步一步上瘾的?(0)
  5. 2018:  老板,我不想在你这干了(0)

原创文章,作者:wang09220922,如若转载,请注明出处:https://www.iyunying.org/social/app/99769.html

(0)
wang09220922wang09220922投稿者
上一篇 2017年4月5日 下午3:08
下一篇 2017年4月6日 下午1:13

推荐资讯

分享本页
返回顶部