如今，数据科学与人工智能正越来越普遍——尤其是随着 Netflix、亚马逊、Facebook、Spotify 等大公司不断部署人工智能战略，想在幕后与消费者展开更紧密的互动。

但是，有很多企业并没有用好数据科学，而把数据科学当成了一个好看而无用的花瓶。到底应该如何“正确地应用”数据科学和人工智能呢？如何真正地从业务需求出发，把数据科学用在刀刃上呢？今天这篇文章，我们就来看看Netflix是如何从产品需求出发，让数据科学和机器学习成为真正的增长引擎，而不是摆设的花瓶。

Netflix数据科学/人工智能的五大实例

电影推荐个性化——观看A电影的用户可能会观看 B电影。这可能是 Netflix 最著名的功能， Netflix根据品味相似的用户观看历史记录来推荐你接下来可能最有兴趣观看的内容，从而提升客户满意度，维持订阅量。

缩略图的自动生成和个性化——Netflix使用来自现有电影或节目的数千个视频帧作为缩略图生成的起点，再对这些图像进行注释，然后对每张图像进行排名，从而判断哪些缩略图最有可能被客户点击。这些计算基于与你相似的用户点击的内容，发现可能喜欢某些演员/电影的用户更有可能点击具有某些演员/图像属性的缩略图。

电影制作的选址（前期制作）——Netflix使用数据来辅助决定最佳拍摄地点和时间。考虑到日程安排（包括演员/工作人员的可用性等）、预算（场地、航班/酒店成本）和制作的限制场景要求（比如是白天还是夜间拍摄，极端天气状况的发生概率等）。这个应用场景属于数据科学中的优化问题，而不是基于过去数据进行预测的机器学习模型。

电影编辑（后期制作）——Netflix使用过去的有质量问题的视频数据（指字幕与声音/动作不同步的情况）——预测人工检查在什么时候最有益，因为人工检查往往是一个非常耗时和费力的过程。

流媒体质量——使用过去的观看数据来预测带宽使用情况，以帮助 Netflix 决定何时缓存区域服务器，从而能在在峰值（预期）需求期间加快加载时间。

对Netflix而言，这 5 个数据科学/机器学习的应用产生了非常可观的影响，而它们之所以能对Netflix的业务产生长足的影响是因为，Netflix的数据科学家和产品经理们，能够把这些数据科学技术与业务需求正确地联系起来。如果没有把这些技术与业务进行连接，那么这些技术就只会是空中楼阁。只有把这些技术和 Netflix 的核心业务问题联系起来，才能真正改变人们的生活。

那什么是所谓的“业务需求”呢？

这五大Netflix的数据科学应用场景，每个实例都与特定的业务需求、目标或假设相关联。对于所有的数据科学家与产品经理来说，明确目标至关重要，如果没有清楚地确定问题或业务需求，可能会在没有业务的情况下耗尽宝贵的技术资源。

我们做数据科学并不是因为它是一项有趣的技术，而是因为它能解决问题。

那么让我们再看看电影推荐和那些个性化的缩略图的商业目标是什么？

1. 电影推荐：增加忠诚度、减少订阅者

Netflix 拥有大量的内容，根据它自己的统计，它拥有超过 1 亿种不同的产品。这些内容在不断变化，有的可能并不讨用户欢心，如果不做智能推荐，那么每天会有多少用户面对海量视频挑花了眼，因而感到沮丧，这导致的结果就是，他们可能会退订。Netflix的赚钱方式就是让尽可能多的用户付费订阅。所以“电影推荐”这个功能的终极目标，就是减少退订的人，其方式就是让每个用户，能在短时间内就找到自己感兴趣的电影电视，并且忍不住要经常回来看。

所以我们就很清楚“电影推荐”这个功能的产品目标：

在有限的观看时间内增加/保持收视率
增加探索的视频的数量，重新登录的频率
超过公司制定的任何最低阈值
每月订阅忠诚度总体增加/订阅者取消减少

Netflix之所以开发“电影推荐”这个功能，不是为了耍酷的，而是为了解决上面这些产品功能的。

2. 个性化图像缩略图：识别问题

这个例子可以当作是电影推荐系统的分支问题。鉴于要向用户提供电影推荐，我们现在还有另一个业务问题，就是如何让人们点击他们可能感兴趣的电影？

一种方法是通过电影缩略图，但是应该提供什么样的缩略图？缩略图有多重要？改变缩略图会影响收视率和订阅者忠诚度呢？我们有这方面的数据吗？

Netflix的产品团队在 2014 年之前就提出了这些问题，他们整合了用户调研数据和其他数据，证明了图像缩略图和收视率之间确实存在密切联系。

Netflix创意服务全球经理 Nick Nelson 解释说，公司在 2014年初进行的研究发现，缩略图的呈现内容“不仅是影响用户是否观看内容的最大因素”，同时也占据了超过82% 用户在浏览Netflix时的注意力。

Nelson写道：“我们还看到，用户在每个缩略图标题上平均花费 1.8 秒。” “我们之前没有想到一张图片对会员的影响有多大，还有我们拥有的时间是如此之短（指1.8秒）。

那当我们明确了电影缩略图的重要性之后，我们怎么来确定，每一步电影到底该用什么样的缩略图呢？让我们接着往下看看Netflix是如何用数据来创建缩略图的！

如何用数据科学来解决业务问题？

首先，这里需要解答两个问题：

Netflix使用哪些数据来创建这些个性化缩略图？
Netflix使用哪些数据将这些自定义创建的缩略图定位到个人？

对于第一个问题，我们就得考虑以下这些因素：

一集《怪奇物语》有1小时，其中包括超过 86,000 个静态视频帧。
这些视频帧可以单独被分配某些属性，这些属性稍后会经由一组称为美学视觉分析 (AVA) 的工具和算法过滤，成为最佳缩略图的候选者。这一系列操作是为了了从视频的每个静态帧中找到最佳的自定义缩略图图像。
Netflix 注释 — Netflix 为每一帧创建元数据，包括亮度 (.67)、面部数量 (3)、肤色 (.2)、裸露概率 (.03)、运动模糊级别 (4)、对称性 (. 4)。
Netflix 图像排名 — Netflix 使用来自上方的元数据来挑选出最高质量的特定图像（光线良好、无运动模糊、可能包含一些从适当角度拍摄的主要角色的面部照片、不包含未经授权的品牌内容等） ) 和最容易被点击的图像。

对于第二个问题，可以从Netflix的用户行为数据来考虑：

观看的电影数量，每个节目的观看分钟数
每个视频/系列的完成百分比
‘点赞’的数量，哪些电影获得了最多的赞
可归因于任何特定节目的整体观看内容的百分比（用户是不是出于对特定演员/节目的兴趣才观看的）
与用户参与度等相关的任何季节性或周趋势。

有趣的是，在2018年，Netflix 不再采用用户评论作为数据点，在那之前Netflix只在网页版本上设置评论功能。为什么？因为这个功能实际上降低了收视率，负面评论会降低用户们的兴趣，这是业务需求如何取代流行用户需求的另一个例子。

因此，Netflix拥有大量关于每个客户的数据——从观看的视频到点击的图像。

那么问题来了，他们如何处理所有这些数据？

Netflix利用这些数据来汇总每个用户的全景图，构建每个用户的个人资料，并根据数百甚至数千个不同的属性对每个用户进行数学索引。他们这样做是为了将兴趣相似的人组合在一起，这样就可以利用来自一个用户的数据来帮助预测其他类似用户的可能行为。

对于Netflix用户，每个用户的个人资料都可以用数值来描述，每个数值代表该用户兴趣的单个维度，这些维度包括电影类型、最喜欢的演员/女演员、电影主题等。

下图可以看成是Netflix的部分用户们在电影类型这一个维度上的得分分组：

比如：

“6”=浪漫喜剧

“4”=惊悚片

如果一个用户被Netflix 标记为“6”，那么他/她将被放置在上图中靠近底部的绿松石色6的位置附近。

同样，如果用户被 Netflix 标记为“4”，那么他/她将被放置在上图中洋红色4的位置附近（靠近顶部）。

请注意绿松石色的“6”区域（浪漫喜剧）与灰色的“5”区域（模仿或讽刺电影）有些重叠。这可能类似于喜欢浪漫喜剧的用户也喜欢模仿或讽刺电影，因为它们都涉及搞笑。

同样，由于洋红色“4”区域（惊悚片）有点接近粉红色“9”区域——这个粉红色 9 区域代表那些喜欢动作片的人——在数学上比浪漫喜剧“6”更接近惊悚片“4”区域“ 地区。

因此，在上图中，可以用空间距离来表示两个用户的品味有多相似或者多不同不同。当然，当喜欢浪漫喜剧的人也喜欢惊悚片时，这会变得无限复杂——但这个类比的目的是展示不同类别之间数学/空间关系的一般概念。

如果用户喜欢附近的其他类型的电影，彼此相关的兴趣组会看起来更接近，并且可以很好地预测用户会喜欢什么。

这种类型的机器学习模型就被Netflix以及其他的众多公司频繁使用，在看似非结构化的数据之间建立联系，并将他们转化为数字表示。

所以让我们总结一下：一堆 Netflix 图像缩略图其实就是一堆非结构化数据。但是一旦 Netflix 对每个缩略图进行注释并为每个缩略图分配元数据来描述该缩略图中的内容——我们就有了非结构化数据的数字表示。

然后我们找到彼此相对靠近的数据点，并使用它们来帮助预测未来的点击行为，并且会相应地调整这些特征的数学定位，直到模型随着时间的推移变得越来越好。

这就是Netflix 将非结构化数据转化为数学表示的方式。它使用数据点之间的关系距离作为制作和改进图像缩略图推荐的基础。

从这样的分析中，Netflix得到了一些在缩略图方面很有意思的洞察：

● 缩略图最好要展示表情丰富的面部特写镜头

● 缩略度最好向人们展示反派角色而不是英雄角色

由此，Netflix在以“正确的方式”应用人工智能、数据科学和机器学习方面做得非常出色 —— 使用基于产品的方法，首先关注业务需求，然后才利用人工智能解决方案，而不是反过来。

随着 AI、数据科学和机器学习领域的不断发展，通过数据驱动业务的重要性不断提升不断提升，如果你也想全面提高自己对数据科学的深层理解，那就千万不要错过MarTechApe的《A/B测试企业级实战训练营》 以真实商业场景中的复杂A/B测试问题为项目背景，让学员在两个月的时间里，使用百万量级原始数据，搭建完整的A/B测试流程！

在过去开办的7期《训练营》中，我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景，都能通过这门课程，打开盛行“测试文化”的互联网高科技公司的大门！

《A/B测试企业级实战训练营》往期学员战绩：

1你将获得

真枪实弹的A/B测试项目实操，百万量级真实数据+五大应用案例，从零学会A/B测试的里里外外！
为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目，让你在面试时可以自信展示自己亲自做的案例，成功拿下offer！
从0到100真实操作A/B测试项目的全套流程：数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示。
经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程，以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法！
深度学习A/B测试实战中常见的测试陷阱及避免方法。
牢固掌握公司里A/B测试项目中的实际SQL与Python应用，为A/B测试搭建数据库、清理数据、创建数据集。
学会用Python自动化实现A/B测试，为你的老板提高100%的工作效率！
接受系统的统计训练，打下坚实牢固的统计基础，彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。
各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。对互联网科技公司的深度剖析和指标介绍，让你自如面对各类面试考验！
模拟实际工作中与产品经理的合作，培养商业意识与产品思维。
专业的Bootcamp经历简历模版与认证证书，可以晒到LinkedIn等求职网站，大大提高面试邀请率！
福利升级：训练营以往只内推成功从训练营中毕业的学生。但在疫情期间，所有A/B测试实战训练营学员，均可获得全职或实习岗位的内推机会！

2训练营老师介绍

Emma老师

美国知名电商Wayfair高级商业分析专家
拥有多年电商A/B测试实战经验，及新人教授经验
精通Advanced SQL, Python等数据分析工具
设计推出的A/B测试，为公司带来上千万美元的收入

Emma老师对学员知无不言，有问必答！无论是面试中遇到的问题，还是工作中遇到的困惑。

3训练营课程内容

整个Bootcamp历时8周，每周3小时课程，共计24小时课时。
周末线上实时授课，课后完成老师布置的作业，助教团队在班级群内随时答疑，直播录像永久回放。
五大课程模块：

A/B测试商业训练（案例、变量设计、测试计划）
A/B测试数据技能训练（数据源概况、SQL数据库建立、Python自动化分析）
A/B测试实验设计训练（A/B测试 vs 准实验、实验步骤、真实商业环境中的实验挑战）
A/B测试统计训练（统计分析、深度解析）
A/B测试面试训练

课程内容涵盖了A/B测试在各大互联网科技公司中的完整工作流程：

A/B测试统计基础与应用场景
A/B测试实验设计
A/B测试假设检验、变量选择、流量计算与实验周期计算
A/B测试各类应用场景中的实验变体与前后测实战分析
用SQL与Python完成A/B测试项目实战
A/B测试结果解读与高阶统计
结果展示

每位学员将有一套亲自做的A/B测试成果作品
每位学员获得A/B测试面试真题解题辅导
结课后，每位学员获得提升简历的Industry Project Experience完美描述，所有学员获得内推机会！

1. A/B测试商业训练

了解A/B测试在顶流科技公司中的各类应用场景
了解A/B测试适用的商业问题与它的局限
了解科技公司产品团队如何使用A/B测试
面对商业问题，如何设计有效的假设？
如何制定A/B测试的实验计划与执行框架？

2. A/B测试数据技能

搭建一个真实的A/B测试实验数据库
了解A/B测试中常面临的数据问题
用SQL对数据进行清洗与转制，完成样本选取、组别分配、变量选取等实验步骤，为A/B测试做好数据准备
用Python搭建A/B测试分析流程

学员在项目中重点使用SQL与Python，全方位了解A/B测试中涉及的数据库搭建、样本选取、实验组与测试组分配、变量选取等数据分析步骤。并且充分掌握用Python搭建A/B测试结果分析流程，实现A/B测试自动化，对真实工作中的A/B测试分析了如指掌。简而言之，项目后，你不仅将牢固掌握SQL与Python等最热门的数据分析软件，还将成为真正的A/B测试技术流，完全掌握A/B测试这项数据分析工作中最重要的技能。

3. A/B测试实验设计

充分了解A/B测试的实验步骤
设立零假设与被择假设
确认实验指标，设计实验变量
根据指标类型确认统计检验方法
估算样本量，确定实验周期
置信区间与统计功效
A/B测试中的各类偏差
样本量不够或其他实验条件不满足时的实验设计
了解准实验与A/B测试的应用区别
为项目案例设计A/B测试实验

学员在项目中将透彻学习实验方法与实验设计。在这个环节中，将研究如何制定实验方案，以提高实验效率，缩小随机误差的影响，并使实验结果能有效地进行统计分析。学习在工作场景中如何用A/B测试等实验来提高用户激活/活跃/留存等关键的产品指标，提升产品功能表现，真正理解A/B测试的商业价值与业务地位。

4. A/B测试统计训练