Analytics for characterising and measuring the naturalness of online personae

Nurse, Jason R. C.; Erola, Arnau; Gibson-Robinson, Thomas; Goldsmith, Michael; Creese, Sadie

doi:10.1186/s13388-016-0028-1

案例研究
开放式访问
出版：2016年9月8日

描述和测量在线角色自然度的分析

安全信息学 体积 5，物品编号：三(2016)引用这篇文章

4956访问
三引文
4海拔高度
韵律学细节

摘要

介绍

目前，全世界40%的人口，约30亿用户，正在使用网络空间进行从工作到娱乐的一切活动。虽然这一媒体带来了许多好处，但互联网也并非没有风险。在这篇案例研究文章中，我们特别关注假冒（或非自然）在线身份的挑战，例如用于欺骗人和组织的身份，目的是探索一种检测方法。

案例描述

特别是，通过我们的方法和案例研究，我们概述并实验了新的分析方法，用于表征和测量网络人物或身份的自然性；这种自然性被定义为该角色具有与在线可比角色相似的特征的程度。我们的案例场景涉及两种类型的参与者，我们在这个阶段的目标是使用我们的方法来正确描述这两种类型，然后区分它们。

讨论和评估

简单地说公共关系我们的案例研究结果表明，我们对个人完整在线状态进行概念化的方法非常成功。毫无疑问，这与它对网络空间的典型使用方式的详细考虑有关，同时也建立在我们现有的身份模型之上，该模型被用于协助执法部门完成身份识别任务。然而，在开发有效的自然度分析方面，需要改进我们的方法（例如，选择的特征和细微差别的指标）。此外，该研究将受益于更大的样本量，以更好地识别自然角色之间的共同方面。

结论

总的来说，该案例研究使我们能够探索一种新的技术来表征自然性，并检验其在检测非自然人物角色方面的效用。我们现在的目标是在研究结果的基础上，以几个关键的方式进行研究。具体来说，我们的目标是对定义自然性的标准进行进一步评估，并完善我们的分析和组合来衡量人物角色的自然性。我们还将探索基于完整在线角色的聚类方法，作为对大型数据集中自然出现的角色类型识别的补充。

介绍和相关工作

今天，世界各地的人们比以往任何时候都更多地利用互联网来工作和娱乐，并利用越来越多的设备和服务来实现这一目的[1]. 对网络空间的利用导致了有意识的信息共享和发布（个人和公司的多样性），并不可避免地产生了许多用户可能不知道的持久性数据（可能是元数据，也可能是被认为已删除或无法获取的旧数据）。虽然毫无疑问，我们在网络空间的互动有很多好处，但威胁、风险和一般危险的数量在不断增加[2]数据泄露、黑客攻击和伪造身份几乎司空见惯。

在这篇以案例研究为基础的文章中，我们集中讨论了假冒在线身份的问题，以及它们越来越多地被用来操纵、欺骗和欺骗人们和组织[三–5]. 回顾文献，在检测虚假账户和机器人方面已经做了大量工作。例如，Cao等人提出了一种使用社交图属性的技术，根据用户假冒的可能性对其进行排名[6]. 随后，他们扩展了这一考虑，探索了在识别恶意帐户组时使用聚类的方法（假设它们具有非常相似的属性和操作，例如发布和上传行为）[7].

在Viswanath等人[8]介绍了一种用于检测社交网络中异常用户行为的无监督机器学习方法。通过在Facebook个人资料上的实验，作者展示了他们的聚类技术（主要基于“赞”率和活动）在识别虚假和受损用户帐户中的应用。在垃圾邮件和僵尸检测领域，Fong等人[9]以及许多其他（例如[10,11])还尝试解决虚假个人资料的问题，通常使用多种技术，这些技术通常应用先验知识（例如，机器人的短暂性或发布习惯）来检测虚假帐户。我们还通过使用机器学习进行了这一领域的研究，探索在使自动文本（由机器人生成）具有说服力方面最重要的因素[12].

与现有文献相比，我们工作的新颖之处在于对完整的在线人物角色进行了深入分析；这包括它的所有方面以及它在多个站点中的使用方式。我们假设，通过对真实人物如何描述自己和在线行为的详细描述，可以精心设计一种方法来检测虚假或异常身份，尤其是那些经过谨慎维护并用于恶意目的的身份。作为这种方法的基础，我们借鉴了在我们之前的研究中开发的一个全面的身份模型[13,14]. 这使我们能够描述身份，从存在的属性和可以从中进行的推断（例如，从一个人的电子邮件地址推断出他的名字），到跨多个站点的身份的整体存在。对身份进行全面建模的能力是一种非常有效的工具，有助于理解什么是网络上的自然行为，从而了解什么是不自然的、可能有害的人物角色。

在下文中，我们将介绍我们的方法和用于检验它的案例研究，然后批判性地反思我们关于该方法效用的发现。具体来说，我们首先将自然性视为一个概念，它对自然的人物角色意味着什么，以及如何有效地描述自然性。接下来，我们详细介绍了我们建议用于测量未知在线角色自然度的分析（即干预）。然后，我们展示了为探索我们的方法而进行的案例研究实验的结果。最后，在结束本文之前，我们反思了这些结果并概述了发展分析的方法。

方法和案例研究

在本节中，我们首先介绍了描述和测量自然度的拟议方法。然后，对我们的案例研究进行定义并展示结果。

自然性的定义和特征

在线身份和自然度

要正确考虑在线身份，首先需要理解几个重要概念。其中最核心的是人物角色。我们定义人物角色作为个人（有意识或无意识）在网上展示自己的方式。人物角色的一个关键定义特征是，它呈现了一个基本一致的个人观点。个人在网上实际描述或展示其角色的方式是通过我们所说的轮廓。个人资料通常是网站（如脸书、易趣）的本地资料，代表个人持有或关于个人的用户帐户。配置文件维护身份属性集（例如，姓名、用户名、照片、详细信息），如下所示元素，关于人物角色；我们还考虑推论它定义了从现有元素中衍生出新元素的技术（例如，基于语言分析工具，人们可以评估Facebook帖子并推断一个人的情绪或情绪）。

我们讨论的另一个重要概念是上下文.术语上下文用于表示特定类型的在线空间，例如与工作相关的空间或专注于社交的空间。上下文旨在提供一种非常广泛的方式来描述一组相关元素，也可以用于在概要中对这些元素进行概念性描述或分组。在更精细的上下文粒度上话题或主题领域-这些功能与上下文的功能相同，但在它们组合在一起的相关标识元素中更加细粒度。例如，一个人可能有一个工作环境，在这个环境中有关于工作中参与的项目或与同事一起参加的活动的主题；然后，这些主题将汇集相关的模型元素，如项目描述和合作者，以及事件位置、时间和参与者。在多个上下文中也可能存在类似的主题。

使用上述概念并借鉴我们现有的身份模型[13,14]，特定人物角色的自然度定义为该角色具有与在线可比角色的预期或标准相似的特征的程度；这里，预期的或标准的特征是指在大多数相似角色中存在的概要、上下文和模型元素的范围，以及可以实现的推断.

举个例子，假设我们已经评估了一组相关的人物角色，并且从收集的数据中，我们已经推断出这种人物角色的自然属性。现在，进一步假设这种自然性的特征是大学网页上的在线显示和LinkedIn简介；这两方面都有关于个人参与的研究项目、发表的文章和教学责任的数据。因此，如果我们确定一个声称属于这种类型的角色（例如，通过特定的LinkedIn配置文件），它与我们对上述正常角色的描述不相似（无论是否存在主题、元素的可用性或进行推理的能力），那么我们可以为这个角色分配一个较低的自然度分数；一般的想法是，自然度得分越低，被调查的在线存在就越可能是虚构的。

为了彻底考虑自然性，有必要了解在线可找到人物角色数据的概况、上下文和主题区域的范围。为了发现这些方面，我们对在线身份数据进行了深入研究，同时也反思了我们现有的研究[13,14]. 图1介绍了根据我们的分析得出的个人在线存在的概念。

具体来说，个人可以通过在线人物角色来表现自己，而这些角色又通过广泛的个人资料来体现。这些配置文件可以将几乎任何主题和任何目的的身份元素联系在一起；该图显示了这些配置文件中最受欢迎的一小部分。作为描述配置文件及其所含数据的一种方式，我们假设至少有五个配置文件可以关联的高级上下文。

这些上下文是：社会背景-将互联网用作社交媒体产生的身份信息（例如，人物脸书档案、个人生活博客、游戏）；工作环境-因官方工作和就业目的使用互联网而产生的身份信息（例如，LinkedIn档案或公司员工页面）；状态上下文-这包括一个国家公民的身份数据，通常由政府通过在线举措提供（例如，选民名册、公民登记册）；客户环境-由于使用互联网购买和提供商品和服务评论而产生的身份信息（例如，亚马逊或易趣档案）；和社区公民背景-与使用互联网参与支持社区有关的身份信息（例如，邻里观察、志愿服务）。虽然我们在概要文件下显示上下文，但它们也可以在上面显示，或者实际上作为概要文件注释。一个配置文件可以与多个上下文关联，或者一个上下文可以描述多个配置文件中的数据。

在图中的上下文层下，有主题（或主题区域）的概念。例如，“兴趣”主题旨在捕捉与个人兴趣、好恶等相关的个人资料中的行为。如果我们将其应用于Facebook个人资料，该主题将包含身份元素，如喜欢,影视,音乐和书，以及身份模型推断，涵盖了可以从这些元素中得出的内容；例如，对特定书籍的兴趣可能导致对个人专业知识或家庭生活的深入了解。这突出了拟议概念化的优点之一：概要文件可以包含任何列出的上下文和主题，而主题可以在最低模型层利用各种元素和推论并由其构成。在图中2，我们提供了一个从身份模型到相关主题区域的元素和推断的详细映射示例。

使用概念化实现自然

我们可以通过两种方式应用图中所示的概念化1表现自然。第一种方法是采用自上而下或静态的视角进行分析，因此在搜索和分类已识别个人数据时，主要受该图中现有结构的指导。图三描述了一个概念化如何模拟个人在线存在的示例。

因此，为了定义一组特定类型的个人或人物的自然性，这种方法将主要由可用的人物、简介、上下文、主题和元素以及通常可能的推断来指导。因此，我们对以下问题感兴趣：某些个人资料（例如，脸书、推特或192.com）是否普遍可用，现有个人资料是否通常用于特定原因（例如，适合某些上下文或主题），以及最终，是否有任何元素通常由个人共享，或者从一个元素到另一个元素的推断是可以预期的。这些将是理解和描述自然性的关键因素，尤其是在我们的身份模型背景下。

第二种分析方法是将自下而上和更动态的观点应用于问题。这里的目的是从布局的底部开始，使用假定个人的数据元素，然后根据这些元素的关联方式对其进行分组，并继续向上构建。因此，第一步是使用数据元素（来自个人简介）构建针对特定个人的实际主题。一旦确定了主题，我们就会将相关主题分组到高层上下文中——这些上下文将提供个人如何实际使用概要文件的一般见解。为了从配置文件向上移动到角色（即确定配置文件属于一个角色还是多个角色），该方法建议依赖配置文件的一组核心元素，如果这些元素共同相似，则将配置文件分组到同一个角色中。这些核心要素可以包括：姓名、年龄、地点和电子邮件地址。目前，这项技术已经在一个包含五个人的小数据集上进行了验证。

与自上而下的方法类似，在这种更动态的方法中，自然性的特点是考虑在一组个人及其角色中倾向于出现的元素、推论、主题、上下文和概况（以及它们如何出现或何时出现）。这种方法的优点是可以发现以前没有想到的新主题、上下文和简介。

测量人物角色自然度的分析

我们测量人物角色自然度的方法由两个主要步骤组成，即自然度的表征和评估。具体如下。

研究并描述一组个人及其角色的自然性构成要素

此任务涉及几个较小的自然特征化活动：

第1步识别一组个人，并收集在线空间中每个人的身份信息。实际上，这将从配置文件级别开始，因此需要注意个人维护的配置文件。为了从这个特征描述任务中获得最大的价值，选择一种特定类型（或一组类型）的个人是很有用的，在这种类型中，他们的在线存在和人物角色可能存在一些看似合理的共性。此外，这种选择可能会受到稍后在评估中调查的（潜在的）假角色类型的指导。

第2步对于每个个体，应用上一节中的概念化（如图1)创建他们的在线存在模型。这项任务可以使用自上而下或自下而上的方法，但需要在个人之间保持一致。该分析产生的结构将确定每个个人角色的概况、上下文、主题区域和元素，以及可能的推断；图中的映射2在这里会很有用，尤其是在自顶向下的分析中。此步骤还将注意值某些元素，如帖子和图片，以及每日好友数、喜爱的项目和帖子等汇总值；这些将用于以后的表征任务。作为这一步的输出，我们期望有几个类似于图中所示的布局三.

步骤3分析个人数据中出现的一组结构，以确定结构中是否存在常见或自然出现的某些方面；然后将这些记录下来。关键问题是：某些简介、上下文或元素是否大多存在，或从未存在？此外，某些推论通常可以执行吗？还是基本上不可能执行？识别预期可能的推论是一个关键步骤，因为我们预计，与上述许多其他步骤不同，不太可能出现巨大差异（至少在相似的个体中）。这里的另一项重要任务是评估个人可用的数据元素，以确定是否可以为元素本身定义任何正常发生的值。同样，这将使用大多数情况下发生的情况。以推特为例，该任务将确定个人选择自己或他人的图像作为头像是否是自然的。我们怀疑在这一步的分析中可能需要考虑一些控制因素。例如，个人的年龄可能会显著影响其角色在所述空间中的表现方式。

第4步总结前面步骤（2–3）的发现，并为该组个人及其角色创建自然度模板。这可以采用与图中类似的布局三但是，元素、主题、上下文和简介的存在将取决于它们是否可以被期望出现。与上述几个步骤一样，这种对自然的描述将基于大多数个体内部发生的情况，但不一定是所有个体。有鉴于此，我们对自然性的定义（或识别自然性的容忍度）可能需要稍微灵活一些，尤其是在我们无法找到明确多数人行为的情况下。

评估被调查人物的自然性

具体如下：

第1步将感兴趣的人物角色与之前描述的人物角色的自然模板进行比较。此步骤评估新角色的在线存在程度（结构如图所示）三)类似于可比较角色的预期存在。这里的一个关键因素是，要评估的人物角色在很大程度上与先前用于描述自然性的人物角色类型相同。这将确保测量方法区分非自然的人物角色，而不仅仅是不同类型的人物角色。我们建议根据预期轮廓、上下文、存在（或不存在，视情况而定）的模型元素以及未启用的推论中的重叠度量来评估新角色的自然性。为了进行这一测量，我们探讨了几种方法，其中两种方法概述如下。

第一种方法倾向于简单，并直接将新角色的定义概念与自然角色模板进行比较。这种比较是在每个项目的基础上进行的，每个元素、上下文、配置文件和推理都要进行比较。如果两项一致，则分配1，否则分配0。例如，如果个人很自然地在LinkedIn上陈述自己的学校历史，并将自己的形象作为头像发布，但被调查的角色只做了其中一个，他们将收到[0,1]。然后将这些值在整个项目集上取平均值，以获得人物角色与自然度模板的相似度百分比。如果该平均值小于某个预定义的自然度阈值（可以根据评估的敏感性进行调整），则该角色将被视为不自然。

测量自然度的第二种方法是考虑与自然度模板的一致性百分比。这将考虑到这样一个事实，即尽管模板代表大多数值，但它很可能忽略了在后续测量任务中很重要的某种程度的分歧。方法如下。首先，定义新角色的结构，类似于图三接下来，将人物角色中的每个项目与自然度模板中的相应项目进行比较。然后计算罚款或不同意模板。如果双方达成一致，则指定0，因此没有罚款，否则，该项目将计算0到1之间的罚款。惩罚的定义基于初始个体集合中与规范不一致的程度。

可以通过多种方式进行处罚。一种方法是使用线性方法，其中对新角色不同意自然值的惩罚与同意自然值的百分比（在初始个体集合中）成正比。例如，如果在描述自然性时，发现只有51%的人同意所选的自然值，那么如果被调查的人物也不同意，那么他们的惩罚应该比98%的人都同意的情况低得多。为了实现这一点，我们将罚款设置为从0.02（协议为51%）到1（协议为100%）的线性范围。

除了线性方法外，我们还探索了对数函数、指数函数和幂函数的应用，以产生惩罚值。这些机构使用与上述大致类似的方法来纳入百分比协议，但正如预期的那样，会产生不同的惩罚。一旦对每个项目应用了值（和惩罚）以指示与模板的相似性，就要对这些值进行平均，以确定角色本身与自然角色的相似性。根据设定的阈值，可以得出关于人物角色潜在自然性的结论。

案例研究实验和结果

为了评估我们的方法表征和测量自然度的能力，我们进行了一个案例研究实验。在这个阶段，我们认为案例研究更合适，因为我们特别感兴趣的是（a）探索特征化过程和（b）了解该方法是否至少可以检测到相同或不同类型的人物（以及个人）。我们将这些任务视为能够检测假角色的关键先决条件。因此，我们设计了一个案例场景，参与者分为两类（学生描述自然，专业人员测试）。在这里，我们没有尝试检测真正的假冒人物，也没有包括对已知假冒人物的评估——这将为我们下一个更全面的实验奠定基础。下面，我们介绍了案例研究实验，然后强调了一些主要发现。

描述自然性：步骤1

为了描述自然性，我们首先招募了30名学生作为案例研究的基础。我们假设，鉴于他们年龄相同，在同一所学校学习的学位非常相似，他们可以有一个大致相似的在线存在。在参与者的许可下，根据大学道德准则，我们收集了他们的在线身份数据，包括个人资料、身份要素、源数据等。

描述自然性：步骤2

接下来，我们分析了每个人的在线表现，并创建了几个类似于图的模型三虽然简介、主题领域、元素和推论的定义很简单，但指定适当的上下文需要对每个人的简介元素进行全面分析，并确定该简介是如何使用的，例如用于工作、社交等。然而，总的来说，这一步的进展与预期一致，概念化比充分抽象每个存在的能力更强。

描述自然性：步骤3

然后对各种身份概念进行评估，目的是确定哪些特征、背景、主题领域、要素和推论可以被视为自然。下面，我们对分析进行总结。

定义自然轮廓

为了在配置文件级别定义自然度，我们根据大多数情况下发生的情况采用了一种简单的方法。也就是说，如果大多数人物角色都拥有该配置文件，则这被认为是该样本的自然配置文件，如果大多数人没有，则这被认为是自然配置文件。图4总结了维持的不同概况及其流行情况。

一个值得注意的发现是，在31种个人资料类型中，只有6种可以被认为是参与者的自然存在，即至少50%的参与者拥有这些个人资料。这些网站包括Facebook、Twitter、Google+、YouTube、Amazon和eBay。其他一些个人资料也有相当强大的影响力（例如Instagram、Steampowered游戏平台、Spotify和LinkedIn），但不是大多数。相比之下，有些配置文件非常罕见，因此自然倾向于不使用它们（例如，IMDB、Stackoverflow）。

另一个值得强调的问题是，人物角色维护的个人资料总数的可变性。总的来说，剖面的平均数量为8个，标准偏差为4。因此，这里可能出现的一个问题是，在我们最初的自然特征化集合中，某些个体是否是离群值。

定义自然环境

自然环境的定义采用了上述大多数方法。根据分析结果，考虑到参与者的背景，所发现的背景在某种程度上是意料之中的。例如，脸书（Facebook）、推特（Twitter）和Instagram都是用来社交的（例如，与朋友互动、发布图片等），而不是用于工作或商业，因此这些都与社会背景有着天然的联系。不出所料，eBay自然是在客户环境中表现出来的。这里出现的一个有趣的观点是，对于一些网站，它们可能只有一个用途或可以说是一个主要用途，因此在上下文级别上，在区分非自然人物方面可能没有那么有用。

While期间主题领域在我们的分析中，我们不在这里报告它们，因为它们的发现与元素级评估（下一步）非常相似。

定义自然元素

这一步骤旨在确定哪些身份元素在配置文件中自然（主要）暴露出来。和之前一样，我们描述了每个配置文件元素的自然度模板，但为了简洁起见，我们只展示了Facebook的结果。在图中5，可以观察到元素在各个个体中的可用性。这里的一个关键发现是，有些元素始终存在，因为它们是必需的（例如。，性别)，以及其他主要由个人使用的（例如。，化身,封面图片); 我们用后者来定义自然性。还有一些因素明显缺乏流行性（例如。，网站)因此可以得出结论，这种类型的角色不链接到其他配置文件是很自然的。

定义自然推理

与具有身份元素的过程类似，我们对自然可能和不可能的推断进行了表征。这一过程如预期的那样进行，我们能够定义自然推理，但在评估进行推理的能力时需要大量的手动操作。例如，在Facebook上，我们发现参与者有一个明显的倾向，即使用自己的照片作为头像（97%），有时会与他人一起出现（62%）。我们还发现，参与者墙上的帖子自然提到了朋友、地点、喜欢的组织或公司，以及个人的个人兴趣。

定义自然值

确定自然度的另一种方法是分析值元素的。我们重点关注两个方面：（a）文本内容分析，以评估诸如保持一致的价值观是否是自然的（例如。，年龄或名称)跨简档或者如果值通常倾向于匹配基本事实（例如真实年龄）；和（b）数字元素的频率分析（例如帖子,上传的图片)计算潜在自然值的范围（假设为高斯分布，“自然”范围可以是平均值加上/减去标准偏差）。从（a）中得出的结果包括这样一个事实，即在个人档案中，大多数人的年龄和性别明显相同，但位置或用户名不同。例如，由于它与（b）和Facebook有关，我们发现人物角色倾向于在晚上发布更多内容，而在早上发布更少内容，但没有一个特定的时间是他们主要发布内容的时间。因此，如果我们要找到一个总是同时出版的人，这可能被视为不自然。

描述自然性：步骤4

通过对参与者数据的全面分析，我们在图中定义了高级自然人物角色模板6这突出显示了被调查类型的自然角色可以使用的配置文件、上下文、数据元素和推断。

测量新角色的自然度

本节采用我们的一般方法来衡量新角色的自然度；在我们更广泛的研究目标的背景下，这些将是可疑的假人物。在我们的案例研究分析中，我们使用了五个新的人物角色，其中三个是与初始设置具有相同学位的学生，因此在进行比较时可能会发现这是自然的。其他两个人物来自不同主题领域的老年人和公司员工；因此，他们的出现可能看起来不自然，或者至少与学生的自然角色模板不同。此后，测试角色#1、#2和#3是学生，#4和#5是专业人员。

测量轮廓层次的自然度

我们首先评估了五个测试角色与我们的自然度模板在配置文件方面的比较。图7显示了测试角色#1的此评估示例。对于每种配置文件类型，我们都记录了其自然行为（即个人是否自然拥有它[1][0]）以及初始集合内参与者对该规范的同意百分比（其中100%表示完全同意，51%表示非常有限的同意）。接下来，我们获取测试角色#1出现的站点列表，以及计算出的自然度指标。具体来说，我们使用了一个简单的惩罚度量（其中1表示与自然模板一致，否则为0）、一个使用线性曲线的惩罚度量，以及一个使用幂曲线的惩罚量度。如图所示，一般来说，简单惩罚获得了最大值，因为它同样惩罚了与模板的所有差异。相反，线性和幂函数方法根据初始参与者集合的百分比协议进行惩罚。

对于图中的特定角色7，我们可以观察到它与自然模板非常相似（即，所有指标的相似性超过93%）；相似性定义为[1-平均指标得分]其中平均MetricScore是所有配置文件中惩罚的平均值。

为了在个人资料层面上评论总体结果，我们无法使用我们的方法区分学生和员工（因此，自然和非自然角色）。这可能是因为第4和第5个人所代表的人物角色类型与我们的自然概况模板非常相似，或者是因为用于定义自然度的样本中存在太多差异。为了测试最后一个假设，我们采用了第1步重点是定义和反映初始参与者样本的平均罚款和标准偏差。根据这项分析，我们发现在这个水平上，有六名参与者的罚分高于平均罚分（0.0343）加一个标准差（0.0334），还有一名参与者的罚分高于平均罚分加两个标准差（非自然）。在某些方面，这些个体可以被视为离群值，其特征可能削弱了自然性特征化过程。

测量轮廓内的自然度

在这里，我们从上下文、配置文件元素和推断方面评估测试角色的自然性。由于篇幅有限，我们将重点放在脸书上作为调查结果的例子。

在上下文级别，我们的方法能够检测出测试角色#4和#5与自然模板相比的差异。这是因为这些角色有一些关于他们工作的细节（例如。，职业,雇主)在他们的个人资料上。然而，就这一级别的总体相似性得分而言，这些指标仍然认为这两个角色是自然的。

为了在元素水平上衡量测试人物角色的自然度，我们借鉴了特征化（来自图5)，并遵循步骤3中定义的方法。我们首先计算初始集相似性的阈值和标准差，分别为74.51和7.89%。因此，当个体与模板的相似性低于74.51%时，我们认为个体是不自然的。使用这个阈值，所有测试的五个角色看起来都很自然。这也可能是由于初始数据集的高度可变性，从而影响了推导出的自然模板。或者，这可能是因为考虑了太多的因素，从而降低了平均分并引入了噪音。线性和功率指标的阈值分别为89.26%和95.19%。只有测试人物角色#1的平均相似度低于这些，即表明他们档案中的数据可能不自然。这是惩罚的效果家乡和位置特别是这个人没有提供的元素。

下一个任务是考虑Facebook中推理的自然性。在图中8我们可以看到Facebook阈值的调查以及三个测试用户获得的相似性。简单惩罚的计算阈值为61%，线性惩罚为83%，功率惩罚为94%。根据这些指标，测试角色#2使用简单的线性惩罚看起来不自然，因为它们没有暴露位置,组织或利益在他们的岗位上。类似地，测试角色#4看起来很不自然，尤其是因为它们没有暴露组织和利益.

为了在元素值水平上简要考虑自然性，我们将新人物角色的发现与文本内容和频率分析进行了比较。对于文本分析，专业测试角色通常与自然模板不同，尤其是在跨配置文件的用户名一致性方面。对于频率分析，图9显示测试角色倾向于在Facebook上发布的时间。暗阴影表示平均值加上一个标准偏差（即自然度阈值），而亮阴影表示平均数加上标准偏差的两倍。在这里，测试人物角色#1（蓝色）看起来不自然，因为他们经常在早上发布，而测试人物角色#4（绿色）看起来不太自然，因为那个人倾向于在下午2点左右发布。

接下来，我们反思我们的案例研究分析以及拟议方法实现其目标的能力。

反思方法和分析

在这项研究中，我们的目标是开发一种方法，可以表征一类个人的自然在线存在，并进行分析，以衡量是否可以将来源不明的人物视为自然人。总的来说，从我们的案例研究分析中，我们发现我们对个人存在进行概念化的方法可以被视为是成功的。然而，在开发有效的自然度分析方面，需要改进该方法。最终，这意味着我们无法使用现有的度量标准来区分自然角色和非自然角色（或不同类型的角色）。因此，这影响了随后使用该方法检测虚假在线角色的计划。下面，我们思考一下为什么这可能不可能实现的一些主要原因。

数据集

在任何识别虚假或非自然角色的方法中，首先必须对什么是自然有一些明确的理解。我们认为，自然行为可以在不同类型的个人之间发生变化，因此，确定要评估的个人或人物的类型尤其重要。我们通过定义和探索一个案例研究来解决这个问题，该案例研究涉及招募一组相同年龄的学生并学习相同的学位。不幸的是，在我们分析他们的在线数据时，我们发现他们的存在存在显著差异，这无疑影响了推导出的自然度角色模板。由此得出的一个结论是，基于职业或年龄的类型可能不是定义自然性的最佳方式。

样本量也可能对我们的分析和发现产生影响。由于案例场景数据集的规模较小，实际惩罚的计算可能不正确，或集中在与自然性无关的元素上（反之亦然，即忽略了重要的元素）。总的来说，如果数据中存在明显的大多数，那么该方法似乎表现正确，因此我们可以假设，如果我们有更大的样本，该方法将能够生成更准确的自然度模板。当我们从基于案例研究的实验扩展到大规模的实质性研究时，这无疑是一个未来工作的领域。

自然性特征

为了描述自然性，我们的分析方法假设大多数情况是自然情况。考虑到我们的数据，这意味着因为大多数人在Spotify上都没有个人资料，所以这被认为是不自然的。因此，可以说，没有必要考虑Spotify内部共享的信息或相关上下文，也没有必要考虑可能的推断。然而，我们可以解决此问题的另一种方法是降低配置文件级别的阈值，这样，如果配置文件类型至少由以下人员维护，我们将评估配置文件中的数据\（x\%\）（例如。，\(40\,\%\))个人。这将允许在评估中包括更多的个人资料，这可能会允许额外的细节，反过来，可能会使一个不自然的人物被识别。如果多数值技术无法发现不自然的人物，我们可以想象将这种方法作为第二种方法应用。

处理什么是自然的或不是自然的特征的另一种方法是，只有在初始集合的大部分中普遍存在的情况下，才将其视为自然；例如，至少在\(80\,\%\)而不是\(51\,\%\)这里的想法是，应该预料到初始集合中的某些可变性，因此，我们应该更严格地推断出需要什么，以便将其视为自然。如果我们取图中的数据6例如，我们只会将脸书和亚马逊视为自然存在的个人资料。因此，如果我们正在衡量一个新角色的自然度，而他们没有推特个人资料，他们就不会受到惩罚。这与我们目前的做法相反，在这种做法中，个人将受到相当严重的惩罚，这取决于所采用的具体指标。

研究中面临的一个显著问题是用于表征自然性的数据的可变性。虽然这可能是由于所选角色的类型，但另一种可能性是，这组角色中存在不同的子簇，可以更好地定义角色规范。为了对这个理论进行初步测试，我们应用了K（K）-均值聚类方法[15]到初始角色集的配置文件级数据。我们的分析发现了三组个体，如图所示10; 我们利用现有工作为K（K） [15,16]. 虽然这些特定的集群具有不同的优势，但在初始数据集中发现如此广泛的分布在一定程度上强化了我们的信念，即容纳多个自然度模板（从初始数据集中确定的集群推导而来）的方法可能是未来进行的最佳方式。因此，这里的想法是通过多个模板（可能通过聚类确定）来描述自然性，然后通过评估其与已知自然模板的匹配程度来衡量出处未知的人物角色的自然性。如果我们能够全面描述找到的模板，那么也可以选择确定哪些模板最适合用于评估新角色。这是我们未来研究的主要探索领域。

另一个值得注意的一般因素是，到目前为止，我们对自然性的描述在某种程度上是静态的，代表了一个时间点上的自然性。然而，自然度，即使对于被评估的人物角色集，也可能会发生很大的变化，因此，自然度模板的适当更新至关重要。此外，事实上，自然性可以动态地考虑（即随着时间的推移），而不一定只在特定点考虑。因此，从人物角色数据的重复捕获中，可以确定在一段时间内，自然人物角色（及其各自的简介、背景等）倾向于被描述，或以特定方式行事。考虑到这些因素和提及的其他因素，可以在随后的测量阶段对自然度进行更准确的评估。

整体自然度测量

我们对每个人物的自然度进行逐级分析，即概况、上下文、主题、元素和推论。然而，正如所讨论的那样，为了对个人的自然性有一个总体的概述，这些价值观应该以某种方式结合起来。到目前为止，我们的组合数学采用了平均法，它提供了一个相似性分数，但可以说，这是一个相当严格的分数。基于这些层可以定义整体自然度的另一种方式如图所示6这里的想法是，我们将较低级别的值与正上方层的值结合起来，构建一棵树。例如，当我们计算一个配置文件的元素集和推断的平均惩罚时，我们可以将其与拥有该配置文件的惩罚（如果有的话）合并（例如，相乘）。下面，我们将研究如何在许多情况下应用此方法。

假设拥有一个配置文件是很自然的，不拥有它的惩罚是0.8。在剖面中，自然会有特定元素(元素1)可用并进行推断(推断1); 不符合规范的处罚分别为0.7和0.9。现在，两个新角色(人物角色1和人物2)我们需要评估它们的自然度。人物角色1没有配置文件，并且人物2有个人资料，但元素1不可用，并且推理1无法创建。在以下情况下人物角色1，评估很简单，也就是说，如果没有配置文件，我们只需指定0.8的惩罚。

对于人物2一种方法是在配置文件中平均惩罚（即。，\((0.7 + 0.9)/2\))然后将其乘以没有轮廓的惩罚，最终惩罚为0.64，这里没有轮廓的处罚基本上起到了权重的作用。这种方法的优点是，如果一个人拥有一个配置文件，但它非常不自然（即倾向于平均元素/推断惩罚为1），那么这将等同于根本没有配置文件。在其他两种情况下，即当一个配置文件不是自然的，但人物角色有它时，以及当人物角色不是自然的且人物角色也没有它时，评估很简单。也就是说，在前一种情况下，没有配置文件的惩罚是指定的（例如，在我们上面的示例中为0.8），在后一种情况中，没有惩罚。未来的工作需要进一步探索这一点，最好是使用更大、类型更清晰的参与者集。

结论和未来工作

随着网络上组织和个人数量的增加，网络空间对恶意团体来说变得更具吸引力，因为网络上有各种旨在欺骗他人的计划和诡计。在本文中，我们提出并探索了一种方法，其最终目的是使我们能够更好地区分真实和虚假（或恶意）在线身份。这种方法侧重于增强对在线角色的理解，同时也有助于描述自然在线存在的特征，以及衡量对这种存在的符合性。

根据对该方法进行的基于案例研究的评估，我们的方法在几个方面表现良好，但在许多其他方面还需要进一步改进才能应用于判断假冒人物。这些领域将是我们未来工作的重点，包括：对定义自然性的标准的进一步评估，以及用于测量人物角色自然性的精细分析和组合。最后，我们正在探索聚类方法的全面应用，使用完整的在线角色（即来自多个站点的数据）作为识别大型数据集中自然出现的角色类型的手段。这可以用来补充我们现有的方法，并对定义自然度的初始数据集（例如，通过自然度模板）提供更多的见解。

工具书类

Mashable（2014）美国成年人每天花11个小时使用数字媒体。http://mashable.com/2014/03/05/american-digital-media-hours。2015年4月25日在线访问
Ponemon Institute（2015），2014年：重大违规年份。http://www.ponemon.org/local/upload/file/2014《大溃败之年》（The Year of The Mega Breach FINAL）3.pdf。2015年4月25日在线访问
Wall DS（2013）未来身份：未来10年英国身份的变化/英国与身份相关的犯罪。技术报告，英国政府的远见项目
《连线》（2014）《如何利用社交媒体攻击政府》。http://www.wired.co.uk/news/archive/2014-05/29/iranian-hack-facebook-military网站。2015年4月25日在线访问
Geek Wire（2014）在线骗子如何使用我的图片创建假身份。http://www.geekwire.com/2014/no-i-in-imposter/。2015年4月25日在线访问
Cao Q，Sirivanos M，Yang X，Pregueiro T（2012）《帮助检测大规模社交网络服务中的虚假账户》。附：第九届USENIX网络系统设计与实现会议记录
曹Q，杨X，于J，Palow C（2014）《在线社交网络中发现大量活跃恶意账户》。在：ACM SIGSAC会议关于计算机和通信安全的会议记录，第477–488页。数字对象标识：10.1145/2660267.2660269
Viswanath B、Bashir MA、Crovella M、Guha S、Gummadi KP、Krishnamurthy B、Mislove A（2014）《在线社交网络中异常用户行为检测》。附：第23届USENIX安全研讨会会议记录
方S，庄Y，何J（2012）并非社交网络上的每个朋友都可以信任：使用决策树对冒名顶替者进行分类。摘自：《未来一代通信技术国际会议论文集》，第58–63页doi:10.1109/FGCT.2012.6476584号
Stringhini G、Kruegel C、Vigna G（2010）《在社交网络上检测垃圾邮件发送者》。摘自：第26届年度计算机安全应用会议记录，第1-9页。数字对象标识：10.1145/1920261.1920263
Verma M，Divya Sofat S（2014）《检测推特垃圾邮件发送者的技术》，一项调查。国际计算机应用杂志85（10）：27–32
谷歌学者
Everett RM，Nurse JRC，Erola A（2016）《在线欺骗剖析：是什么让自动文本具有说服力？》？收录于：第31届ACM应用计算研讨会论文集。ACM，第1115-1120页。数字对象标识：10.1145/2851613.2851813
Creese S、Goldsmith M、Nurse JRC、Phillips E（2012）一种数据可读性模型，用于说明与使用在线社交网络相关的隐私和安全风险。收录：第11届IEEE国际会议关于计算和通信中的信任、安全和隐私（TrustCom）的会议记录。IEEE，第1124–1131页。数字对象标识：10.1109/TrustCom.2012.22
Bruce J、Scholtz J、Hodges D、Emanuel L、Fraser DS、Creese S、Love OJ（2014）《身份之路：使用可视化帮助执法部门执行身份识别任务》。安全信息3（1）：1–13。数字对象标识：10.1186/s13388-014-0012-6
第条谷歌学者
Pham DT、Dimov SS、Nguyen C（2005）《k均值聚类中k的选择》，《机械工程研究院学报》第C部分《机械工程科学杂志》219（1）：103–119
第条谷歌学者
Rousseeuw PJ（1987）《剪影：聚类分析解释和验证的图形辅助》。计算机应用数学杂志20:53–65
第条数学谷歌学者
Jackson JE（2005）主要组件的用户指南。纽约威利
数学谷歌学者

下载参考资料

作者的贡献

列出的所有作者都参与了本文的研究和实验，以及手稿本身的准备工作。所有作者阅读并批准了最终手稿。

作者信息

JN是一名网络安全研究员和初级研究员；AE是网络安全研究员；TGR是一名初级研究员；MG是计算机科学教授；SC是网络安全教授和额外研究员。所有作者均来自英国牛津大学计算机科学系。

竞争性利益

作者声明，他们没有相互竞争的利益。

作者信息

作者和附属机构

英国牛津大学计算机科学系
Jason R.C.Nurse、Arnau Erola、Thomas Gibson Robinson、Michael Goldsmith和Sadie Creese

作者

Jason R.C.护士
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
阿诺·埃罗拉
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
托马斯·吉布森-罗宾逊
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
迈克尔·戈德史密斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
萨迪·克里斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信Jason R.C.护士.

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/)，它允许在任何媒体上不受限制地使用、分发和复制，前提是您对原始作者和来源给予适当的信任，提供知识共享许可的链接，并指明是否进行了更改。

转载和许可

关于本文

引用这篇文章

护士，J.R.C.，埃罗拉，A.，吉布森-罗宾逊，T。等。用于描述和测量在线角色自然度的分析。安全通知 5, 3 (2016). https://doi.org/10.1186/s13388-016-0028-1

下载引文

收到:2016年7月7日
认可的:2016年8月24日
出版:2016年9月8日
内政部:https://doi.org/10.1186/s13388-016-0028-1

描述和测量在线角色自然度的分析

摘要

介绍

案例描述

讨论和评估

结论

介绍和相关工作

方法和案例研究

自然性的定义和特征

在线身份和自然度

使用概念化实现自然

测量人物角色自然度的分析

研究并描述一组个人及其角色的自然性构成要素

评估被调查人物的自然性

案例研究实验和结果

描述自然性：步骤1

描述自然性：步骤2

描述自然性：步骤3

定义自然轮廓

定义自然环境

定义自然元素

定义自然推理

定义自然值

描述自然性：步骤4

测量新角色的自然度

测量轮廓层次的自然度

测量轮廓内的自然度

反思方法和分析

数据集

自然性特征

整体自然度测量

结论和未来工作

工具书类

作者的贡献

作者信息

竞争性利益

作者信息

作者和附属机构

通讯作者

权利和权限

关于本文

引用这篇文章

分享这篇文章

关键词