意见垃圾检测:检测虚假评论和评论
许多名称:垃圾邮件审查、虚假审查、虚假评论、欺诈性审查 意见垃圾邮件发送者、评论垃圾邮件发送者,伪造审稿人,Shill(冒牌货或工厂), (请参见 《纽约时报》 首页文章,2012年1月26日) (彭博社) 商业周刊 ,2011年9月29日和 更多。。。 )
书: 情绪分析和意见挖掘 (简介和调查),摩根克莱普尔出版社,2012年5月。
假新闻检测 由于欺诈者在这两种情况下的行为相似,因此可以采用与虚假审查检测类似的方式进行。
介绍
人们出于不同目的阅读在线意见/评论已经成为一种常见的做法。 例如,如果你想买一个产品,你通常会去评论网站(例如amazon.com)阅读一些产品评论。 如果大多数评论都是正面的,那么有人可能会购买该产品。 如果大多数评论 都是负面的,人们几乎肯定不会买。 积极的意见可以带来巨大的财务收益和/或声誉 企业、组织和个人。 不幸的是,这强烈地刺激了舆论垃圾。
你能弄清楚吗 这些中的哪一个 三个评论 是假的吗?
意见垃圾邮件 :指“非法”活动(例如。, 写假评论 ,也称为 先令 )试图误导读者或自动化 观点挖掘与情感分析 通过向一些目标实体提供不适当的正面意见来提升实体和/或提供虚假信息 对其他一些实体的负面意见,以损害其声誉。 意见垃圾邮件有多种形式。, 虚假评论 (也称为 虚假评论 ), 虚假评论 , 假冒博客 , 虚假社交网络帖子 , 欺骗 、和 欺骗性信息 .
我们相信,随着消费者、组织和企业在实践中越来越多地使用网络上的意见来进行决策,垃圾意见传播将变得越来越糟糕,也越来越复杂。 检测垃圾邮件评论或意见将变得越来越重要。 情况已经相当糟糕了。
据我们所知,我的团队是第一个 假冒伪劣检测技术研究 评论和审阅者(或shills)。 我们的第一篇论文于2007年发表,随后的论文分别于2008年、2010年和2012年发表。 我的两本书 Web数据挖掘 和 情绪分析和意见挖掘 讨论这个问题。
注释 :这与 草根营销 : “星际草皮是指政治、广告或公共关系活动,旨在掩盖消息的赞助商,使其看起来像是来自一个无私的草根参与者。星际草草旨在通过隐瞒消息来源的信息,使声明具有独立实体的可信度 辅助连接。 这个词是AstroTurf的派生词,AstroTurv是一个合成地毯品牌,设计得像天然草。 “引用自 维基百科 第页。
致谢:该项目的部分资金来自 国家科学基金会、微软和谷歌
假审核检测 我们使用了监督学习、模式发现、基于图形的方法和关系建模来解决这个问题。 以下是我们使用的一些主要信号:
评审内容:
词汇特征 例如单词n-gram、词性n-gram和其他词汇属性。 内容和风格相似性 来自不同评论员的评论。 语义不一致 (我们从未使用过这种功能)。 例如,一位评论家在一篇评论中写道“我和妻子买了这辆车…”,然后在另一篇评论中他/她写道“我丈夫真的很爱…”(我从一家积极检测虚假评论的公司的朋友那里听到了这个例子)。
审核人异常行为:
可从网站获取的公共数据 例如,审阅者id、发布时间、发布频率、产品第一审阅者等等。 例如,您是否发现该用户的评论有任何错误, 大约翰 ? 在你看到这两位用户的评论后, 克莱特斯 和 满意的 ? 事实上,如果你 浏览他们评论过的产品的评论,你会发现另一个 可疑的 用户/评审员。 这只是我们的算法能够发现的非典型行为的一个例子。 网站私人/内部数据 (我们没有使用此类数据,但它们非常有用),例如,IP和MAC地址、发表评论所需的时间、审阅者的实际位置等(其中很多)。
与产品相关的特征:例如,产品描述、销售量和销售排名 关系:审阅者、审阅者和实体(例如,产品和商店)之间的复杂关系。
新闻中的一些虚假评论案例
专业假评论写作服务(部分 声誉管理 公司)
如何手动识别虚假评论
我怀疑人们真的能可靠地发现虚假评论(尤其是那些写得很好的评论)。 我已经用30多名学生做了实验,以证明我没有这样做。 其中一个谬论是,人们通常认为其他人会像他们一样写作,或者应该以某种方式写作。
操纵社交媒体(袜子木偶-假身份-假角色)
中国互联网“水军”——意见垃圾
你可以雇人写假的评论或评论,甚至贿赂评论、论坛和微博网站的工作人员删除你不喜欢的帖子。
“水军”告密者受到威胁 2011年1月7日,《人民日报》。 中国在线“水军” 2010年6月25日,Wired.com。 如果你读中文,请参阅 这个描述 来自百度百度百度。
数据集
亚马逊产品评论数据(巨大) 用于(Jindal和Liu,WWW-2007;WSDM-2008;Lim等人,CIKM-2010;Jindal,Liu和Lim,CIKM2010;Mukherjee等人,WWW-2011;Mukher jee,Liu and Glance,WWW-2012)审查垃圾邮件(假审查)检测。 它包含有关审阅者、审阅文本、评级、产品信息等的信息。由于文件太大,您可能需要使用 下载加速器 (DAP)下载。 如果你使用这些数据,请引用(Jindal和Liu,WSDM-2008)。
出版物
格利菲、王帅、刘冰、勒曼·阿科鲁。 检测换过手的在线审查账户 . arXiv:2106.15352[cs.SI] , 2021.
李华一、费格丽、王帅、刘冰、邵维祥、慕克吉和邵冀东。 评论垃圾邮件检测中的双峰分布和共爆发 . 国际万维网会议记录(WWW-2017) ,2017年4月3日至7日,澳大利亚珀斯。
王静,克莱门特。 T.Yu、Philip S.Yu、Bing Liu、Weiyi Meng。 “博客帖子下的转移注意力的评论。”接受。 ACM网上交易(TWEB) , 2015.
李华一、陈志远、阿俊·慕克吉、刘冰和邵继东。 “通过时间和空间模式分析和检测大规模数据集上的意见垃圾邮件。” ICWSM-2015年 , 2015.
李华一、阿琼·穆克吉、刘冰、雷切尔·科恩菲兹和雪莉·埃默里。 使用马尔可夫随机场检测Twitter上的活动发起人 .显示在 IEEE国际数据挖掘会议记录(ICDM-2014) 2014年12月14日至17日。
李华一、陈志远、刘冰、魏晓凯和邵继东。 通过集体积极无标签学习发现虚假评论 .显示在 IEEE国际数据挖掘会议论文集(ICDM-2014,短文) 2014年12月14日至17日。
钱铁云,刘冰。 识别同一作者的多个用户ID 。出现在 自然语言处理实证方法会议记录(EMNLP-2013) 2013年10月18日至21日,美国西雅图。
Arjun Mukherjee、Abhinav Kumar、Bing Liu、Junhui Wang、Meichun Hsu、Malu Castellanos和Riddhiman Ghosh。 使用行为足迹发现意见垃圾邮件发送者 . 在SIGKDD知识发现和数据挖掘国际会议(KDD-2013)上发表 ,2013年8月11日至14日,美国芝加哥。
Arjun Mukherjee、Vivek Venkataraman、Bing Liu和Natalie Glance。 Yelp Fake Review Filter可能会做什么 . AAAI网络日志和社交媒体国际会议记录(ICWSM-2013) 2013年7月8日至10日,美国波士顿。
Geli Fei、Arjun Mukherjee、Bing Liu、Meichun Hsu、Malu Castellanos和Riddhiman Ghosh。 利用评论中的突发性检测评论垃圾邮件 . AAAI网络日志和社交媒体国际会议记录(ICWSM-2013) 2013年7月8日至10日,美国波士顿。
Arjun Mukherjee、Bing Liu和Natalie Glance。 在消费者评论中发现虚假评论群体 . 国际万维网会议(WWW-2012) 2012年4月16日至20日,法国里昂。 (请参见 媒体报道 自2012年4月16日起)
关旺、谢思宏、刘冰、菲利普·S·余。 通过社交评论图识别在线商店评论垃圾邮件发送者 . ACM智能系统与技术汇刊 ,2011年出版。
关旺、谢思宏、刘冰、菲利普·S·余。 基于评论图的在线商店评论垃圾邮件检测 . ICDM-2011年 , 2011.
Arjun Mukherjee、Bing Liu、Junhui Wang、Natalie Glance、Nitin Jindal。 检测群评论垃圾邮件 . WWW-2011海报纸 , 2011.
Nitin Jindal、Bing Liu和Ee Peng Lim。 “发现异常审查 使用意外规则的模式“ 第19届ACM会议记录 信息和知识管理国际会议 (CIKM-2010,短文) 2010年10月26日至30日,加拿大多伦多。
林依鹏、阮越安、尼丁·金达尔、刘冰和刘海迪。 “使用评级行为检测产品评论垃圾邮件发送者。” 第19届ACM国际信息与知识大会论文集 管理(CIKM-2010,全文) 2010年10月26日至30日,加拿大多伦多。
尼丁·金达尔和刘冰。 “意见垃圾邮件和分析。” 第一届ACM网络搜索和数据挖掘国际会议记录(WSDM-2008) 2008年2月11日至12日,美国加利福尼亚州斯坦福市斯坦福大学。
尼丁·金达尔和刘冰。 “查看垃圾邮件检测。” 的程序 WWW-2007 (海报纸),5月8日至12日,加拿大班夫。
三条评论-你能找出哪些是假的吗?
我想做这篇评论,是为了评论我和妈妈在皇家加勒比游轮“海上小夜曲”上获得的出色服务。 在船上的7天里,上午和下午有很多事情要做。 我们去了6个不同的岛屿,看到了一些令人惊叹的景点! 这绝对值得事先计划。 晚餐服务肯定是五星级的。 我们的主要服务员之一,穆罕默德是我见过的最好的人之一。 然而,我不是一个喜欢去俱乐部、喝酒或赌博的人,所以晚上对我来说很慢,因为没有太多其他事情可做。除此之外,我向那些希望享受优质服务、美食和一周丰富多彩的日间活动的人推荐小夜曲!
这部由汤姆·汉克斯(Tom Hanks)、桑德拉·布洛克(Sandra Bullock)、维奥拉·戴维斯(Viola Davis)和约翰·古德曼(John Goodman)等大牌影星主演的电影是2012年最动人的电影之一。 虽然有些人可能会说这部电影“太好莱坞了”,而其他人可能仅仅因为演员阵容而看这部电影,但托马斯·霍恩作为年轻奥斯卡的表演才值得获奖。 这个故事是关于一个9岁的男孩,他正在一次旅行中,以了解他父亲在世贸中心9/11袭击事件中的悲惨死亡。 奥斯卡是一个聪明而紧张的冒险家,只有耳朵里的铃铛声才能让他平静下来。 “我做过一次测试,看看我是否患有阿斯伯格氏病,”男孩在解释自己奇怪的行为时说道。 悲剧发生一年后,奥斯卡在他父亲最近的房间里找到了一把钥匙,于是开始寻找丢失的锁。 奥斯卡努力控制自己的情绪焦虑,建立和修复关系,即使是与母亲的关系,也很难。 奥斯卡讲述道:“如果太阳要爆炸,你甚至八分钟都不会知道。”。 “八分钟内,世界依然明亮,依然温暖。”奥斯卡离开父亲的那八分钟转瞬即逝,他用了两个小时零九分钟的时间拍摄了一部感人至深、令人难以置信的电影。 离开剧院,情绪枯竭,这是一个奇迹,像这样的电影在哪里。 我们看到了华氏9/11和曼联93,但最后这是一个纽约家庭努力理解为什么在“最糟糕的一天”无辜的人会死亡的故事。 我强烈推荐这部电影作为必看电影。
高点:鳄梨汉堡相当高; 蛤蜊杂烩很好吃。 装饰很好,但不值得做坏事。 低点:嘈杂、嘈杂、嘈杂。 开胃菜一点都不好。 而且服务有点滞后。 拉斯维加斯和迪斯尼世界的交汇点,但有点俗气。 这个咖啡馆是你在塑料雨林里用餐的地方。 墙上摆满了假的树木、植物和野生动物,包括电子动画动物。 一个流动的瀑布确保你不会听到邻居的谈话而不大喊大叫。 我可以看到孩子的生日聚会很有趣(在我们吃饭的时候有好几次),但如果你想好好吃一顿的话,那可不是一个好去处。
答案在我主页的底部。 如果你答对了,请告诉我你的线索。 你可以点击下面的我的名字进入我的主页。
创建者 刘兵, 2008