需要知道：观众衡量中大数据的利弊|尼尔森

大数据不断成为头条新闻，但它到底是什么，为什么它既是一种礼物，又是准确衡量受众的潜在障碍？我们深入研究其优点、缺点和实现方法

什么是大数据？

在线性媒体世界中，大数据通常指的是向最终用户交付节目的系统产生的两种类型的数据流：来自有线或卫星机顶盒（如Dish或DirecTV）的回传数据（RPD），以及来自互联网连接的智能电视（如三星或Vizio）的自动内容识别（ACR）。

ACR数据

ACR技术监测电视屏幕上的图像，而不是记录频道变化。这些图像就像指纹一样，与大型参考库进行比较，以确定程序或广告的实际内容。图像带有时间戳，以了解播放的时间。

RPD数据

记录机顶盒调到的频道以及频道更改的时间。这些数据可以与电视节目表相匹配，以确定特定时间播放的节目，也可以与提供商的广告服务器或其合作伙伴的数据相匹配，从而确定家庭接触的广告内容。

在这两种情况下，最终用户都允许在其设备上收集数据。合作程度相对较高，因为数据收集不仅推动了测量，还推动了用户偏好和内容推荐等非常理想的功能。RPD或ACR数据集可能覆盖3000多万台设备。

为什么大数据是一件大事？

有一段时间，人们只有少数几个频道可供选择。家庭评级¹60岁以上（就像M*A*S*小时1983年）甚至40（比如宋飞1998年的结局）对于今天的一部剧本剧来说是难以理解的。我们生活在一个更加支离破碎的世界中，有一长串的编程选项。

这对电视观众来说太棒了，但对基于小组的研究来说，事情变得复杂了：在一个拥有101000人的全国性小组中，一个0.2分的电视节目将被80个家庭观看，可能只有亚特兰大或达拉斯地铁区的一个家庭观看。随着数千万台设备的测量，大数据使研究公司有可能以更精细的水平报告电视使用情况，为更多受众较少且往往多样化的节目提供覆盖范围。但就其本身而言，大数据从来就不是用来衡量观众的。

挑战1：大数据不具代表性

为了自信地进行交易，媒体买家和卖家需要一个反映人口多样性的测量解决方案：所有年龄组、种族、民族和许多其他关键的人口和行为特征都需要在基础数据中呈现并成比例。

但规模并不能保证代表性。在尼尔森国家电视台面板上分析安装人数时，我们发现，与普通人口相比，安装RPD的家庭年龄更大，种族差异更小。例如，西班牙裔家庭代表人数不足约30%，25岁以下的户主几乎完全不在RPD数据集中。另一方面，ACR数据集的年龄偏小，家庭成员也较多。在大数据中使用统计权重可能会掩盖问题，但它无法弥补代表性不足的观众缺失的独特观看行为。

更糟糕的是，完全依赖RPD和ACR数据的测量解决方案会漏掉空中数据²以及流媒体家庭，这是馅饼中不断增长的一部分。

挑战#2：大数据可能无法捕获所有观看行为

即使包括有代表性的家庭，RPD和ACR数据集也无法捕获家庭中每一台机顶盒或家中其他非智能电视的电视机的观看量。这些额外的电视机可能会为不同的家庭成员播放不同的节目（比如厨房里的烹饪节目，或者游戏室里的儿童节目），因此，不仅大数据家庭不能代表人口，而且大数据本身也不能代表这些家庭可能正在观看的所有节目。

对于依赖RPD的研究公司来说，一个令人沮丧的问题是，当所连接的电视机关闭时，机顶盒通常保持打开状态。这种“幻影”调谐可能会通过以下方式夸大实际观看量：145%至260%，具体取决于提供商。有一些模型可以被实现来补偿它，但没有一个参考点，比如一个由真实视图通知的面板，可能很难开发出正确的启发式。

ACR也不能免受数据质量问题的影响。一些智能电视流媒体应用程序阻止ACR在应用程序使用时捕获屏幕上的内容。当内容实际上被应用程序阻止时，电视可能看起来是关闭的。大多数提供商只监控所有可用编程的一小部分。在一个最近的分析我们发现，ACR提供商目前只监控31%的可用电台，23%的记录分钟仍来自未被监控的电台。由于没有可供比较的参考指纹，该视图未被报告。

挑战#3：大数据缺少观众统计数据

RPD和ACR提供商从数以百万计的设备中获取调谐数据，但他们不知道谁在观看，这也是广告商最终想要的。

弥补这一不足的一个方法是与第三方人口统计供应商合作。这些公司记录了该国每户家庭的人口构成，研究公司可能会试图通过特定家庭的调整数据总和和该家庭的人口组成来模拟谁在关注什么。

儿童节目？那一定是家里的一个孩子说的。摔跤比赛？那一定是来自男性观众。如果没有一个真实的参考点来帮助机器学习算法，您可以很容易地看到这种类型的建模可能会出现问题。不足为奇的是，随着家庭规模的增加，它的可靠性逐渐降低，这最终会影响到大家庭数据的准确性，比如那些有孩子的家庭、非白人和年轻观众。

面板数据的持久值

对于寻求稳定、可靠的受众测量解决方案的品牌和媒体公司来说，上述挑战是不可能的。面板数据对于克服这些限制至关重要。

在尼尔森，当我们分析RPD或ACR数据时，我们能够确定哪些家庭和设备是我们面板的一部分，并将这些家庭的调谐数据与我们的仪表捕捉到的观看行为进行比较。通过将我们的面板用作这些家庭中的真相来源，我们可以查明大数据偏离真相的地方，并开发稳健的模型来调整这些异常。

例如，我们开发了一种方法来计算设备在房屋内的位置，并将其调谐数据与特定观众进行匹配。另一种模型可以帮助我们确定机顶盒打开时电视机是否关闭。另一种模式可以找出注册为额外调谐的设备更新，以及设备同时返回多个调谐事件的情况。

人员，而不是设备

最终，受众研究是关于人的，而不是设备。

毫无疑问，大数据对媒体研究人员的武库来说是一个巨大的补充。它为实现比以往任何时候都更精细的报告打开了大门。但它本质上是错误的、有偏见的，而且最根本的是短视的：它捕获调整数据，而不是查看数据。

为了发挥其潜力，需要用相关的人口统计数据对其进行清理、填充、校准和丰富。这就是面板数据的用武之地。机器学习最适合强大的培训和验证数据，行业中最具代表性的面板数据是当今媒体研究业务的核心。

尼尔森公司 需要了解回顾观众测量的基本原理，并揭开媒体行业最热门话题的神秘面纱。

注释

¹家庭评级是指该国所有家庭接受特定节目的百分比。
²可通过天线的“信号”进行编程。空中传送（OTA）广播是第一种可用的电视类型。

需要知道：大数据在受众衡量中的利弊

8分钟阅读| 2023年8月

什么是大数据？

ACR数据

RPD数据

为什么大数据是一件大事？

挑战1：大数据不具代表性

挑战#2：大数据可能无法捕获所有观看行为

挑战#3：大数据缺少观众统计数据

面板数据的持久值

人员，而不是设备

注释

继续浏览类似的见解

“数据驱动”已不足以满足您的ROI战略

注重结果的指标：首席财务官关心的营销KPI

亚裔美国人是流媒体使用的领导者

我们的产品可以帮助您和您的企业

消费者和媒体视图

NCSolutions公司

全球体育赛事

为您的业务找到合适的解决方案

我们能提供什么帮助？

洞察力>观众

需要知道：大数据在受众衡量中的利弊

8分钟阅读| 2023年8月

什么是大数据？

ACR数据

RPD数据

为什么大数据是一件大事？

挑战1：大数据不具代表性

挑战#2：大数据可能无法捕获所有观看行为

挑战#3：大数据缺少观众统计数据

面板数据的持久值

人员，而不是设备

注释

继续浏览类似的见解

“数据驱动”已不足以满足您的ROI战略

注重结果的指标：首席财务官关心的营销KPI

亚裔美国人是流媒体使用的领导者

我们的产品可以帮助您和您的企业

消费者和媒体视图

NCSolutions公司

全球体育赛事