在本节中,我们首先介绍了描述和测量自然度的拟议方法。然后,对我们的案例研究进行定义并展示结果。
自然性的定义和特征
在线身份和自然度
要正确考虑在线身份,首先需要理解几个重要概念。其中最核心的是人物角色。我们定义人物角色作为个人(有意识或无意识)在网上展示自己的方式。人物角色的一个关键定义特征是,它呈现了一个基本一致的个人观点。个人在网上实际描述或展示其角色的方式是通过我们所说的轮廓。个人资料通常是网站(如脸书、易趣)的本地资料,代表个人持有或关于个人的用户帐户。配置文件维护身份属性集(例如,姓名、用户名、照片、详细信息),如下所示元素,关于人物角色;我们还考虑推论它定义了从现有元素中衍生出新元素的技术(例如,基于语言分析工具,人们可以评估Facebook帖子并推断一个人的情绪或情绪)。
我们讨论的另一个重要概念是上下文.术语上下文用于表示特定类型的在线空间,例如与工作相关的空间或专注于社交的空间。上下文旨在提供一种非常广泛的方式来描述一组相关元素,也可以用于在概要中对这些元素进行概念性描述或分组。在更精细的上下文粒度上话题或主题领域-这些功能与上下文的功能相同,但在它们组合在一起的相关标识元素中更加细粒度。例如,一个人可能有一个工作环境,在这个环境中有关于工作中参与的项目或与同事一起参加的活动的主题;然后,这些主题将汇集相关的模型元素,如项目描述和合作者,以及事件位置、时间和参与者。在多个上下文中也可能存在类似的主题。
使用上述概念并借鉴我们现有的身份模型[13,14],特定人物角色的自然度定义为该角色具有与在线可比角色的预期或标准相似的特征的程度;这里,预期的或标准的特征是指在大多数相似角色中存在的概要、上下文和模型元素的范围,以及可以实现的推断.
举个例子,假设我们已经评估了一组相关的人物角色,并且从收集的数据中,我们已经推断出这种人物角色的自然属性。现在,进一步假设这种自然性的特征是大学网页上的在线显示和LinkedIn简介;这两方面都有关于个人参与的研究项目、发表的文章和教学责任的数据。因此,如果我们确定一个声称属于这种类型的角色(例如,通过特定的LinkedIn配置文件),它与我们对上述正常角色的描述不相似(无论是否存在主题、元素的可用性或进行推理的能力),那么我们可以为这个角色分配一个较低的自然度分数;一般的想法是,自然度得分越低,被调查的在线存在就越可能是虚构的。
为了彻底考虑自然性,有必要了解在线可找到人物角色数据的概况、上下文和主题区域的范围。为了发现这些方面,我们对在线身份数据进行了深入研究,同时也反思了我们现有的研究[13,14]. 图1介绍了根据我们的分析得出的个人在线存在的概念。
具体来说,个人可以通过在线人物角色来表现自己,而这些角色又通过广泛的个人资料来体现。这些配置文件可以将几乎任何主题和任何目的的身份元素联系在一起;该图显示了这些配置文件中最受欢迎的一小部分。作为描述配置文件及其所含数据的一种方式,我们假设至少有五个配置文件可以关联的高级上下文。
这些上下文是:社会背景-将互联网用作社交媒体产生的身份信息(例如,人物脸书档案、个人生活博客、游戏);工作环境-因官方工作和就业目的使用互联网而产生的身份信息(例如,LinkedIn档案或公司员工页面);状态上下文-这包括一个国家公民的身份数据,通常由政府通过在线举措提供(例如,选民名册、公民登记册);客户环境-由于使用互联网购买和提供商品和服务评论而产生的身份信息(例如,亚马逊或易趣档案);和社区公民背景-与使用互联网参与支持社区有关的身份信息(例如,邻里观察、志愿服务)。虽然我们在概要文件下显示上下文,但它们也可以在上面显示,或者实际上作为概要文件注释。一个配置文件可以与多个上下文关联,或者一个上下文可以描述多个配置文件中的数据。
在图中的上下文层下,有主题(或主题区域)的概念。例如,“兴趣”主题旨在捕捉与个人兴趣、好恶等相关的个人资料中的行为。如果我们将其应用于Facebook个人资料,该主题将包含身份元素,如喜欢,影视,音乐和书,以及身份模型推断,涵盖了可以从这些元素中得出的内容;例如,对特定书籍的兴趣可能导致对个人专业知识或家庭生活的深入了解。这突出了拟议概念化的优点之一:概要文件可以包含任何列出的上下文和主题,而主题可以在最低模型层利用各种元素和推论并由其构成。在图中2,我们提供了一个从身份模型到相关主题区域的元素和推断的详细映射示例。
使用概念化实现自然
我们可以通过两种方式应用图中所示的概念化1表现自然。第一种方法是采用自上而下或静态的视角进行分析,因此在搜索和分类已识别个人数据时,主要受该图中现有结构的指导。图三描述了一个概念化如何模拟个人在线存在的示例。
因此,为了定义一组特定类型的个人或人物的自然性,这种方法将主要由可用的人物、简介、上下文、主题和元素以及通常可能的推断来指导。因此,我们对以下问题感兴趣:某些个人资料(例如,脸书、推特或192.com)是否普遍可用,现有个人资料是否通常用于特定原因(例如,适合某些上下文或主题),以及最终,是否有任何元素通常由个人共享,或者从一个元素到另一个元素的推断是可以预期的。这些将是理解和描述自然性的关键因素,尤其是在我们的身份模型背景下。
第二种分析方法是将自下而上和更动态的观点应用于问题。这里的目的是从布局的底部开始,使用假定个人的数据元素,然后根据这些元素的关联方式对其进行分组,并继续向上构建。因此,第一步是使用数据元素(来自个人简介)构建针对特定个人的实际主题。一旦确定了主题,我们就会将相关主题分组到高层上下文中——这些上下文将提供个人如何实际使用概要文件的一般见解。为了从配置文件向上移动到角色(即确定配置文件属于一个角色还是多个角色),该方法建议依赖配置文件的一组核心元素,如果这些元素共同相似,则将配置文件分组到同一个角色中。这些核心要素可以包括:姓名、年龄、地点和电子邮件地址。目前,这项技术已经在一个包含五个人的小数据集上进行了验证。
与自上而下的方法类似,在这种更动态的方法中,自然性的特点是考虑在一组个人及其角色中倾向于出现的元素、推论、主题、上下文和概况(以及它们如何出现或何时出现)。这种方法的优点是可以发现以前没有想到的新主题、上下文和简介。
测量人物角色自然度的分析
我们测量人物角色自然度的方法由两个主要步骤组成,即自然度的表征和评估。具体如下。
研究并描述一组个人及其角色的自然性构成要素
此任务涉及几个较小的自然特征化活动:
第1步识别一组个人,并收集在线空间中每个人的身份信息。实际上,这将从配置文件级别开始,因此需要注意个人维护的配置文件。为了从这个特征描述任务中获得最大的价值,选择一种特定类型(或一组类型)的个人是很有用的,在这种类型中,他们的在线存在和人物角色可能存在一些看似合理的共性。此外,这种选择可能会受到稍后在评估中调查的(潜在的)假角色类型的指导。
第2步对于每个个体,应用上一节中的概念化(如图1)创建他们的在线存在模型。这项任务可以使用自上而下或自下而上的方法,但需要在个人之间保持一致。该分析产生的结构将确定每个个人角色的概况、上下文、主题区域和元素,以及可能的推断;图中的映射2在这里会很有用,尤其是在自顶向下的分析中。此步骤还将注意值某些元素,如帖子和图片,以及每日好友数、喜爱的项目和帖子等汇总值;这些将用于以后的表征任务。作为这一步的输出,我们期望有几个类似于图中所示的布局三.
步骤3分析个人数据中出现的一组结构,以确定结构中是否存在常见或自然出现的某些方面;然后将这些记录下来。关键问题是:某些简介、上下文或元素是否大多存在,或从未存在?此外,某些推论通常可以执行吗?还是基本上不可能执行?识别预期可能的推论是一个关键步骤,因为我们预计,与上述许多其他步骤不同,不太可能出现巨大差异(至少在相似的个体中)。这里的另一项重要任务是评估个人可用的数据元素,以确定是否可以为元素本身定义任何正常发生的值。同样,这将使用大多数情况下发生的情况。以推特为例,该任务将确定个人选择自己或他人的图像作为头像是否是自然的。我们怀疑在这一步的分析中可能需要考虑一些控制因素。例如,个人的年龄可能会显著影响其角色在所述空间中的表现方式。
第4步总结前面步骤(2–3)的发现,并为该组个人及其角色创建自然度模板。这可以采用与图中类似的布局三但是,元素、主题、上下文和简介的存在将取决于它们是否可以被期望出现。与上述几个步骤一样,这种对自然的描述将基于大多数个体内部发生的情况,但不一定是所有个体。有鉴于此,我们对自然性的定义(或识别自然性的容忍度)可能需要稍微灵活一些,尤其是在我们无法找到明确多数人行为的情况下。
评估被调查人物的自然性
具体如下:
第1步将感兴趣的人物角色与之前描述的人物角色的自然模板进行比较。此步骤评估新角色的在线存在程度(结构如图所示)三)类似于可比较角色的预期存在。这里的一个关键因素是,要评估的人物角色在很大程度上与先前用于描述自然性的人物角色类型相同。这将确保测量方法区分非自然的人物角色,而不仅仅是不同类型的人物角色。我们建议根据预期轮廓、上下文、存在(或不存在,视情况而定)的模型元素以及未启用的推论中的重叠度量来评估新角色的自然性。为了进行这一测量,我们探讨了几种方法,其中两种方法概述如下。
第一种方法倾向于简单,并直接将新角色的定义概念与自然角色模板进行比较。这种比较是在每个项目的基础上进行的,每个元素、上下文、配置文件和推理都要进行比较。如果两项一致,则分配1,否则分配0。例如,如果个人很自然地在LinkedIn上陈述自己的学校历史,并将自己的形象作为头像发布,但被调查的角色只做了其中一个,他们将收到[0,1]。然后将这些值在整个项目集上取平均值,以获得人物角色与自然度模板的相似度百分比。如果该平均值小于某个预定义的自然度阈值(可以根据评估的敏感性进行调整),则该角色将被视为不自然。
测量自然度的第二种方法是考虑与自然度模板的一致性百分比。这将考虑到这样一个事实,即尽管模板代表大多数值,但它很可能忽略了在后续测量任务中很重要的某种程度的分歧。方法如下。首先,定义新角色的结构,类似于图三接下来,将人物角色中的每个项目与自然度模板中的相应项目进行比较。然后计算罚款或不同意模板。如果双方达成一致,则指定0,因此没有罚款,否则,该项目将计算0到1之间的罚款。惩罚的定义基于初始个体集合中与规范不一致的程度。
可以通过多种方式进行处罚。一种方法是使用线性方法,其中对新角色不同意自然值的惩罚与同意自然值的百分比(在初始个体集合中)成正比。例如,如果在描述自然性时,发现只有51%的人同意所选的自然值,那么如果被调查的人物也不同意,那么他们的惩罚应该比98%的人都同意的情况低得多。为了实现这一点,我们将罚款设置为从0.02(协议为51%)到1(协议为100%)的线性范围。
除了线性方法外,我们还探索了对数函数、指数函数和幂函数的应用,以产生惩罚值。这些机构使用与上述大致类似的方法来纳入百分比协议,但正如预期的那样,会产生不同的惩罚。一旦对每个项目应用了值(和惩罚)以指示与模板的相似性,就要对这些值进行平均,以确定角色本身与自然角色的相似性。根据设定的阈值,可以得出关于人物角色潜在自然性的结论。
案例研究实验和结果
为了评估我们的方法表征和测量自然度的能力,我们进行了一个案例研究实验。在这个阶段,我们认为案例研究更合适,因为我们特别感兴趣的是(a)探索特征化过程和(b)了解该方法是否至少可以检测到相同或不同类型的人物(以及个人)。我们将这些任务视为能够检测假角色的关键先决条件。因此,我们设计了一个案例场景,参与者分为两类(学生描述自然,专业人员测试)。在这里,我们没有尝试检测真正的假冒人物,也没有包括对已知假冒人物的评估——这将为我们下一个更全面的实验奠定基础。下面,我们介绍了案例研究实验,然后强调了一些主要发现。
描述自然性:步骤1
为了描述自然性,我们首先招募了30名学生作为案例研究的基础。我们假设,鉴于他们年龄相同,在同一所学校学习的学位非常相似,他们可以有一个大致相似的在线存在。在参与者的许可下,根据大学道德准则,我们收集了他们的在线身份数据,包括个人资料、身份要素、源数据等。
描述自然性:步骤2
接下来,我们分析了每个人的在线表现,并创建了几个类似于图的模型三虽然简介、主题领域、元素和推论的定义很简单,但指定适当的上下文需要对每个人的简介元素进行全面分析,并确定该简介是如何使用的,例如用于工作、社交等。然而,总的来说,这一步的进展与预期一致,概念化比充分抽象每个存在的能力更强。
描述自然性:步骤3
然后对各种身份概念进行评估,目的是确定哪些特征、背景、主题领域、要素和推论可以被视为自然。下面,我们对分析进行总结。
定义自然轮廓
为了在配置文件级别定义自然度,我们根据大多数情况下发生的情况采用了一种简单的方法。也就是说,如果大多数人物角色都拥有该配置文件,则这被认为是该样本的自然配置文件,如果大多数人没有,则这被认为是自然配置文件。图4总结了维持的不同概况及其流行情况。
一个值得注意的发现是,在31种个人资料类型中,只有6种可以被认为是参与者的自然存在,即至少50%的参与者拥有这些个人资料。这些网站包括Facebook、Twitter、Google+、YouTube、Amazon和eBay。其他一些个人资料也有相当强大的影响力(例如Instagram、Steampowered游戏平台、Spotify和LinkedIn),但不是大多数。相比之下,有些配置文件非常罕见,因此自然倾向于不使用它们(例如,IMDB、Stackoverflow)。
另一个值得强调的问题是,人物角色维护的个人资料总数的可变性。总的来说,剖面的平均数量为8个,标准偏差为4。因此,这里可能出现的一个问题是,在我们最初的自然特征化集合中,某些个体是否是离群值。
定义自然环境
自然环境的定义采用了上述大多数方法。根据分析结果,考虑到参与者的背景,所发现的背景在某种程度上是意料之中的。例如,脸书(Facebook)、推特(Twitter)和Instagram都是用来社交的(例如,与朋友互动、发布图片等),而不是用于工作或商业,因此这些都与社会背景有着天然的联系。不出所料,eBay自然是在客户环境中表现出来的。这里出现的一个有趣的观点是,对于一些网站,它们可能只有一个用途或可以说是一个主要用途,因此在上下文级别上,在区分非自然人物方面可能没有那么有用。
While期间主题领域在我们的分析中,我们不在这里报告它们,因为它们的发现与元素级评估(下一步)非常相似。
定义自然元素
这一步骤旨在确定哪些身份元素在配置文件中自然(主要)暴露出来。和之前一样,我们描述了每个配置文件元素的自然度模板,但为了简洁起见,我们只展示了Facebook的结果。在图中5,可以观察到元素在各个个体中的可用性。这里的一个关键发现是,有些元素始终存在,因为它们是必需的(例如。,性别),以及其他主要由个人使用的(例如。,化身,封面图片); 我们用后者来定义自然性。还有一些因素明显缺乏流行性(例如。,网站)因此可以得出结论,这种类型的角色不链接到其他配置文件是很自然的。
定义自然推理
与具有身份元素的过程类似,我们对自然可能和不可能的推断进行了表征。这一过程如预期的那样进行,我们能够定义自然推理,但在评估进行推理的能力时需要大量的手动操作。例如,在Facebook上,我们发现参与者有一个明显的倾向,即使用自己的照片作为头像(97%),有时会与他人一起出现(62%)。我们还发现,参与者墙上的帖子自然提到了朋友、地点、喜欢的组织或公司,以及个人的个人兴趣。
定义自然值
确定自然度的另一种方法是分析值元素的。我们重点关注两个方面:(a)文本内容分析,以评估诸如保持一致的价值观是否是自然的(例如。,年龄或名称)跨简档或者如果值通常倾向于匹配基本事实(例如真实年龄);和(b)数字元素的频率分析(例如帖子,上传的图片)计算潜在自然值的范围(假设为高斯分布,“自然”范围可以是平均值加上/减去标准偏差)。从(a)中得出的结果包括这样一个事实,即在个人档案中,大多数人的年龄和性别明显相同,但位置或用户名不同。例如,由于它与(b)和Facebook有关,我们发现人物角色倾向于在晚上发布更多内容,而在早上发布更少内容,但没有一个特定的时间是他们主要发布内容的时间。因此,如果我们要找到一个总是同时出版的人,这可能被视为不自然。
描述自然性:步骤4
通过对参与者数据的全面分析,我们在图中定义了高级自然人物角色模板6这突出显示了被调查类型的自然角色可以使用的配置文件、上下文、数据元素和推断。
测量新角色的自然度
本节采用我们的一般方法来衡量新角色的自然度;在我们更广泛的研究目标的背景下,这些将是可疑的假人物。在我们的案例研究分析中,我们使用了五个新的人物角色,其中三个是与初始设置具有相同学位的学生,因此在进行比较时可能会发现这是自然的。其他两个人物来自不同主题领域的老年人和公司员工;因此,他们的出现可能看起来不自然,或者至少与学生的自然角色模板不同。此后,测试角色#1、#2和#3是学生,#4和#5是专业人员。
测量轮廓层次的自然度
我们首先评估了五个测试角色与我们的自然度模板在配置文件方面的比较。图7显示了测试角色#1的此评估示例。对于每种配置文件类型,我们都记录了其自然行为(即个人是否自然拥有它[1][0])以及初始集合内参与者对该规范的同意百分比(其中100%表示完全同意,51%表示非常有限的同意)。接下来,我们获取测试角色#1出现的站点列表,以及计算出的自然度指标。具体来说,我们使用了一个简单的惩罚度量(其中1表示与自然模板一致,否则为0)、一个使用线性曲线的惩罚度量,以及一个使用幂曲线的惩罚量度。如图所示,一般来说,简单惩罚获得了最大值,因为它同样惩罚了与模板的所有差异。相反,线性和幂函数方法根据初始参与者集合的百分比协议进行惩罚。
对于图中的特定角色7,我们可以观察到它与自然模板非常相似(即,所有指标的相似性超过93%);相似性定义为[1-平均指标得分]其中平均MetricScore是所有配置文件中惩罚的平均值。
为了在个人资料层面上评论总体结果,我们无法使用我们的方法区分学生和员工(因此,自然和非自然角色)。这可能是因为第4和第5个人所代表的人物角色类型与我们的自然概况模板非常相似,或者是因为用于定义自然度的样本中存在太多差异。为了测试最后一个假设,我们采用了第1步重点是定义和反映初始参与者样本的平均罚款和标准偏差。根据这项分析,我们发现在这个水平上,有六名参与者的罚分高于平均罚分(0.0343)加一个标准差(0.0334),还有一名参与者的罚分高于平均罚分加两个标准差(非自然)。在某些方面,这些个体可以被视为离群值,其特征可能削弱了自然性特征化过程。
测量轮廓内的自然度
在这里,我们从上下文、配置文件元素和推断方面评估测试角色的自然性。由于篇幅有限,我们将重点放在脸书上作为调查结果的例子。
在上下文级别,我们的方法能够检测出测试角色#4和#5与自然模板相比的差异。这是因为这些角色有一些关于他们工作的细节(例如。,职业,雇主)在他们的个人资料上。然而,就这一级别的总体相似性得分而言,这些指标仍然认为这两个角色是自然的。
为了在元素水平上衡量测试人物角色的自然度,我们借鉴了特征化(来自图5),并遵循步骤3中定义的方法。我们首先计算初始集相似性的阈值和标准差,分别为74.51和7.89%。因此,当个体与模板的相似性低于74.51%时,我们认为个体是不自然的。使用这个阈值,所有测试的五个角色看起来都很自然。这也可能是由于初始数据集的高度可变性,从而影响了推导出的自然模板。或者,这可能是因为考虑了太多的因素,从而降低了平均分并引入了噪音。线性和功率指标的阈值分别为89.26%和95.19%。只有测试人物角色#1的平均相似度低于这些,即表明他们档案中的数据可能不自然。这是惩罚的效果家乡和位置特别是这个人没有提供的元素。
下一个任务是考虑Facebook中推理的自然性。在图中8我们可以看到Facebook阈值的调查以及三个测试用户获得的相似性。简单惩罚的计算阈值为61%,线性惩罚为83%,功率惩罚为94%。根据这些指标,测试角色#2使用简单的线性惩罚看起来不自然,因为它们没有暴露位置,组织或利益在他们的岗位上。类似地,测试角色#4看起来很不自然,尤其是因为它们没有暴露组织和利益.
为了在元素值水平上简要考虑自然性,我们将新人物角色的发现与文本内容和频率分析进行了比较。对于文本分析,专业测试角色通常与自然模板不同,尤其是在跨配置文件的用户名一致性方面。对于频率分析,图9显示测试角色倾向于在Facebook上发布的时间。暗阴影表示平均值加上一个标准偏差(即自然度阈值),而亮阴影表示平均数加上标准偏差的两倍。在这里,测试人物角色#1(蓝色)看起来不自然,因为他们经常在早上发布,而测试人物角色#4(绿色)看起来不太自然,因为那个人倾向于在下午2点左右发布。
接下来,我们反思我们的案例研究分析以及拟议方法实现其目标的能力。