Netflix如何用数据解构好莱坞？

注：Netflix是一家美国公司，在美国、加拿大提供互联网随选流媒体播放，定制DVD、蓝光光碟在线出租业务。

如果你使用Netflix，你可能好奇它向你推荐的具体电影流派。其中一些具体得近乎荒谬。感人的抗争运动纪录片？20世纪80年代的外国魔鬼故事？如此精确的细小分割，在面对4000万用户时，Netflix的“个性化流派”库得需要有多浩瀚才能描述完整个好莱坞世界？

我们发现Netflix拥有76,897种独特的流派来描述电影类型！

Netflix对每部电影和电视节目都进行了细致的分析和标记。它们有着关于好莱坞娱乐绝对前所未有的数据库。我们抓取到的和上文描述的，只是这个数据库的冰山一角。

Netflix与我们合作，一起探索他们内部称为“altgenres”的产品；并和构思这一系统的产品创新副总裁Todd Yellin进行了深度访谈。乔治亚理工大学教授和The Atlantic撰稿编辑Ian Bogost与我合作，编写了神奇的流派生成器。

01 反向好莱坞

Netflix付钱让经过专门训练的团队观看电影，让他们对各种元数据进行标记，以此解构好莱坞。这个过程复杂而精确，标记人会收到一份36页的培训文件，教他们如何评价电影中的性暗示，血淋淋的场景，浪漫程度，甚至叙事元素。

Netflix如何用数据解构好莱坞？

他们抓取了几十种不同的电影属性，甚至评价角色的道德水平。这些标签与数百万用户的观看习惯相结合后，就成了Netflix的竞争优势。公司的主要目标是获得和保留订阅用户。而流派正是这一战略的关键。 Netflix在2012年的一篇博文中透露， “用户与这些[流派]的关系非常好，我们将最适合的流派放到页面上更高的位置后，会员保留率增加了。Netflix越了解你喜欢什么，你就更喜欢用Netflix。”

现在，他们在自制内容方面有极大的优势：Netflix创建了一个美国电影偏好数据库。数据不能告诉他们如何制作出电视节目，但可以告诉他们应该做什么样的电视节目。当他们创造出《纸牌屋》时，他们并不是在瞎猜。

02 获取数据

我一开始在Twitter上，请求我的粉丝将他们Netflix上显示的流派提交到共享文档。我们最后大约150种类型，这看起来很多，但作家和工程师Sarah Pavis指出，Netflix的类型网址是顺序编号的：简单改变网址结尾处的数字就可以得到越来越多的流派。也就是说， http://movies.netflix.com/WiAltGenre?agid= 1链接到“非洲裔美国犯罪纪录片”，然后http://movies.netflix.com/WiAltGenre?agid= 2链接到“Scary 20世纪80年代的戏剧电影” 等等

用UBot Studio来获取数据，它让你轻松地为网络上自动化的东西编写脚本。经过Bogost的一些故障排除和帮助，软件运行了一天，基本上代替了人工复制、粘贴URL的工作。

这是随机选择的一个原始的流派数据：

Emotional Independent Sports Movies
Spy Action & Adventure from the 1930s
Cult Evil Kid Horror Movies
Cult Sports Movies
Sentimental set in Europe Dramas from the 1970s

并不是每个流派都有对应的流媒体电影。这些数据穷尽了所有可能的电影流派，而非实际上展示给观众的部分：Netflix有一套定义的词汇，相同的形容词一遍又一遍地出现。Netflix语法——如何拼合词汇以形成可理解的流派描述 ——开始清晰起来。每个描述符类别都有一个层次结构。一般来说，一个流派将由这些子集形成：

Region + Adjectives + Noun Genre + Based On… + Set In… + From the… + About… + For Age X to Y 地区+形容词+名词类型+基于… +设置… +从… +关于… +年龄段从X到Y

还有几个通配符，比如大家都喜欢的“女强人领导”（With a Strong Female Lead）和“为了绝望的浪漫”（For Hopeless Romantics）。

03 解码Netflix语法

机子最终返回了所有76,897种流派描述，都由这些基本子集组成。但是为了建起发生器，我们对语法的理解需要更加精确。通过AntConc软件，这是一个由日本教授维护的免费程序，通常被语言学家，数字人文学者和图书馆员用于处理语料库。如果你曾经使用过Google的Ngram工具，那么你已经见识过AntConc的至少一个功能。

AntConc能做的，基本上是把一堆文本转换成可被操作的数据。比如，计算构成Netflix数据库的每个单词出现的次数。

我们收集了关于Netflix词汇中的所有数据，创建了一个大型电子表格。另外，我计算了顶级演员，导演和创作者，并将它们保存在一个单独的文件中。

Ian开始创建了几种不同的语法。第一种最简单的方法，就是让许多形容词随意混合成不同的描述，这是生成器中的GONZO设置。它输出的描述在我看来，是你希望它存在但实际上并不存在的电影类型描述。接着，我们限定到了只有部分形容词。此刻，我们仿佛发现了好莱坞工作室现存的电影制作逻辑——基本上就是几个相同主题的不断的重组。

Classic Action Movies
Family-Friendly Westerns
Buddy Period Pieces

这就是好莱坞！

最后，我们用不同的语法结构不断尝试，直到我们开始看到Netflix的招牌的精确度。

Raunchy Absurd Slashers 下流荒诞的变态杀人电影
Fight-the-System Political Love Triangle Mysteries 与系统抗争政治三角恋
Chilling Action Movies About Royalty 关于皇室的惊悚动作电影

我突然意识到有人已经走过了这条路，作出过这些决定——多少个形容词？要多长？或者更基础的，什么才是形容词？为什么大脑而不是脑？为什么要区分血腥和暴力？作为一个作家，我不断地问自己：为什么这些形容词是恰到好处的？这些词本身是经过精心挑选的。通过谁？

Netflix如何用数据解构好莱坞？

从洛杉矶时报的文章，我们知道了“标记”(tagging)的基础。但它与Netflix的“个性化”有什么关系？什么算法将这大量的标签转换成精确的76,897种流派？

大多数人试图去理解Netflix，但都像是盲人摸象。我需要有人来解释后端。

我们联系上了Yellin，负责创建了Netflix系统的人。对所有的电影添加标签是他的主意。他撰写了的一个24页的关于“如何标记”文档；他标记了早期电影，并指导整个系统的创建。

“我的第一个目标是：将内容撕碎！他说。

2006年，Yellin与一对工程师夫妇在一起，花了几个月开发一个名为“Netflix量子理论”的文件，它阐述了标记电影结局的方式，比如主角的“社会接受性”，及其他几十个方面。许多值都从1-5的评分，比如每部电影都得到一个浪漫评级，而不仅仅是一个标签“浪漫”。每个情节、主角的工作、故事地点，一切的一切，都被标记。 Netflix的工程师采用了这些微标签，并创建了语法规则，其中很多是正我们在生成器中复制出来的。

关键的一步是：这是标记人的人类智慧与算法的机器智能的结合。我可以想到的唯一与之有些许相似的项目,是Pandora曾被称赞的音乐基因组计划（Music Genome Project）。但Netflix让人惊艳的地方在于，对电影描述。 Netflix不止可以显示你可能喜欢的东西，它还可以告诉你什么样的东西。某种程度上，它是一个内省的工具。

流派描述受三个主要因素的限制：1）因为UI原因只能显示50个字符，这限制了大多数的长流派; 2）至少在Netflix扩展DVD目录内，必须有一个达到“临界数量”的内容符合某个类型的描述; 和3）流派描述必须有句法意义。

Netflix如何用数据解构好莱坞？

我们忽略所有这些限制，这就是为什么我们的生成器结果显得那么滑稽的。在Netflix的现实世界中，没有超过五个描述符的流派，最多只有四个，但也相当罕见。

这些底层的标签数据不仅用于创建类型，而且还增加了用户推荐中的个性化级别。所以，如果Netflix知道你喜欢有着高浪漫评级的动作冒险电影，它会在不明说““浪漫的动作冒险电影”之下，给你显示这种电影。“我们标记一部电影中有多高程度的浪漫，但不会告诉你结果；但我们最终会推荐它，”Yellin说。在我看来，Netflix建立的系统在科技世界里只有一个可相提并论：Facebook的NewsFeed。但根据算法，它并非提供它认为你会喜欢的网页内容，而是电影娱乐。

Yellin说，“这是一个关于机器学习，算法，算法语法的真正组合。还有一群为之着迷的的极客。”

来自：镝次元数据传媒实验室

原创文章，作者：爱运营，如若转载，请注明出处：https://www.iyunying.org/seo/dataanalysis/99951.html