意见垃圾检测:检测虚假评论和评论

许多名称:垃圾邮件审查、虚假审查、虚假评论、欺诈性审查
意见垃圾邮件发送者、评论垃圾邮件发送者,伪造审稿人,Shill(冒牌货或工厂),
(请参见《纽约时报》首页文章,2012年1月26日)
(彭博社)商业周刊,2011年9月29日和更多。。。)

新书: 情绪分析:挖掘观点、情绪和情绪.剑桥大学出版社,2015年3月出版。

书: 情绪分析和意见挖掘 (简介和调查),摩根克莱普尔出版社,2012年5月。

假新闻检测由于欺诈者在这两种情况下的行为相似,因此可以采用与虚假审查检测类似的方式进行。

介绍

人们出于不同目的阅读在线意见/评论已经成为一种常见的做法。例如,如果你想买一个产品,你通常会去评论网站(例如amazon.com)阅读一些产品评论。如果大多数评论都是正面的,那么有人可能会购买该产品。如果大多数评论都是负面的,人们几乎肯定不会买。积极的意见可以带来巨大的财务收益和/或声誉企业、组织和个人。不幸的是,这强烈地刺激了舆论垃圾。

你能弄清楚吗这些中的哪一个三个评论是假的吗?

意见垃圾邮件:指“非法”活动(例如。,写假评论,也称为先令)试图误导读者或自动化观点挖掘与情感分析通过向一些目标实体提供不适当的正面意见来提升实体和/或提供虚假信息对其他一些实体的负面意见,以损害其声誉。意见垃圾邮件有多种形式。,虚假评论(也称为虚假评论),虚假评论,假冒博客,虚假社交网络帖子,欺骗、和欺骗性信息.

我们相信,随着消费者、组织和企业在实践中越来越多地使用网络上的意见来进行决策,垃圾意见传播将变得越来越糟糕,也越来越复杂。检测垃圾邮件评论或意见将变得越来越重要。情况已经相当糟糕了。

据我们所知,我的团队是第一个假冒伪劣检测技术研究评论和审阅者(或shills)。我们的第一篇论文于2007年发表,随后的论文分别于2008年、2010年和2012年发表。我的两本书Web数据挖掘情绪分析和意见挖掘讨论这个问题。

注释:这与草根营销: “星际草皮是指政治、广告或公共关系活动,旨在掩盖消息的赞助商,使其看起来像是来自一个无私的草根参与者。星际草草旨在通过隐瞒消息来源的信息,使声明具有独立实体的可信度辅助连接。这个词是AstroTurf的派生词,AstroTurv是一个合成地毯品牌,设计得像天然草。“引用自维基百科第页。

致谢:该项目的部分资金来自国家科学基金会、微软和谷歌

假审核检测

我们使用了监督学习、模式发现、基于图形的方法和关系建模来解决这个问题。以下是我们使用的一些主要信号:
  1. 评审内容:
    1. 词汇特征例如单词n-gram、词性n-gram和其他词汇属性。
    2. 内容和风格相似性来自不同评论员的评论。
    3. 语义不一致(我们从未使用过这种功能)。例如,一位评论家在一篇评论中写道“我和妻子买了这辆车…”,然后在另一篇评论中他/她写道“我丈夫真的很爱…”(我从一家积极检测虚假评论的公司的朋友那里听到了这个例子)。
  2. 审核人异常行为:
    1. 可从网站获取的公共数据例如,审阅者id、发布时间、发布频率、产品第一审阅者等等。例如,您是否发现该用户的评论有任何错误,大约翰? 在你看到这两位用户的评论后,克莱特斯满意的? 事实上,如果你浏览他们评论过的产品的评论,你会发现另一个可疑的用户/评审员。这只是我们的算法能够发现的非典型行为的一个例子。
    2. 网站私人/内部数据(我们没有使用此类数据,但它们非常有用),例如,IP和MAC地址、发表评论所需的时间、审阅者的实际位置等(其中很多)。
  3. 与产品相关的特征:例如,产品描述、销售量和销售排名
  4. 关系:审阅者、审阅者和实体(例如,产品和商店)之间的复杂关系。

新闻中的一些虚假评论案例

专业假评论写作服务(部分声誉管理公司)

如何手动识别虚假评论

我怀疑人们真的能可靠地发现虚假评论(尤其是那些写得很好的评论)。我已经用30多名学生做了实验,以证明我没有这样做。其中一个谬论是,人们通常认为其他人会像他们一样写作,或者应该以某种方式写作。

操纵社交媒体(袜子木偶-假身份-假角色)

中国互联网“水军”——意见垃圾

数据集

出版物

  1. 格利菲、王帅、刘冰、勒曼·阿科鲁。检测换过手的在线审查账户.arXiv:2106.15352[cs.SI], 2021.

  2. 李华一、费格丽、王帅、刘冰、邵维祥、慕克吉和邵冀东。评论垃圾邮件检测中的双峰分布和共爆发.国际万维网会议记录(WWW-2017),2017年4月3日至7日,澳大利亚珀斯。

  3. 王静,克莱门特。T.Yu、Philip S.Yu、Bing Liu、Weiyi Meng。“博客帖子下的转移注意力的评论。”接受。ACM网上交易(TWEB), 2015.

  4. 李华一、陈志远、阿俊·慕克吉、刘冰和邵继东。“通过时间和空间模式分析和检测大规模数据集上的意见垃圾邮件。”ICWSM-2015年, 2015.

  5. 李华一、阿琼·穆克吉、刘冰、雷切尔·科恩菲兹和雪莉·埃默里。使用马尔可夫随机场检测Twitter上的活动发起人.显示在IEEE国际数据挖掘会议记录(ICDM-2014)2014年12月14日至17日。

  6. 李华一、陈志远、刘冰、魏晓凯和邵继东。通过集体积极无标签学习发现虚假评论.显示在IEEE国际数据挖掘会议论文集(ICDM-2014,短文)2014年12月14日至17日。

  7. 钱铁云,刘冰。识别同一作者的多个用户ID。出现在自然语言处理实证方法会议记录(EMNLP-2013)2013年10月18日至21日,美国西雅图。

  8. Arjun Mukherjee、Abhinav Kumar、Bing Liu、Junhui Wang、Meichun Hsu、Malu Castellanos和Riddhiman Ghosh。使用行为足迹发现意见垃圾邮件发送者.在SIGKDD知识发现和数据挖掘国际会议(KDD-2013)上发表,2013年8月11日至14日,美国芝加哥。

  9. Arjun Mukherjee、Vivek Venkataraman、Bing Liu和Natalie Glance。Yelp Fake Review Filter可能会做什么.AAAI网络日志和社交媒体国际会议记录(ICWSM-2013)2013年7月8日至10日,美国波士顿。

  10. Geli Fei、Arjun Mukherjee、Bing Liu、Meichun Hsu、Malu Castellanos和Riddhiman Ghosh。利用评论中的突发性检测评论垃圾邮件.AAAI网络日志和社交媒体国际会议记录(ICWSM-2013)2013年7月8日至10日,美国波士顿。

  11. Arjun Mukherjee、Bing Liu和Natalie Glance。在消费者评论中发现虚假评论群体.国际万维网会议(WWW-2012)2012年4月16日至20日,法国里昂。(请参见媒体报道自2012年4月16日起)

  12. 关旺、谢思宏、刘冰、菲利普·S·余。通过社交评论图识别在线商店评论垃圾邮件发送者.ACM智能系统与技术汇刊,2011年出版。

  13. 关旺、谢思宏、刘冰、菲利普·S·余。基于评论图的在线商店评论垃圾邮件检测.ICDM-2011年, 2011.

  14. Arjun Mukherjee、Bing Liu、Junhui Wang、Natalie Glance、Nitin Jindal。检测群评论垃圾邮件.WWW-2011海报纸, 2011.

  15. Nitin Jindal、Bing Liu和Ee Peng Lim。“发现异常审查使用意外规则的模式“ 第19届ACM会议记录信息和知识管理国际会议(CIKM-2010,短文)2010年10月26日至30日,加拿大多伦多。

  16. 林依鹏、阮越安、尼丁·金达尔、刘冰和刘海迪。“使用评级行为检测产品评论垃圾邮件发送者。” 第19届ACM国际信息与知识大会论文集管理(CIKM-2010,全文)2010年10月26日至30日,加拿大多伦多。

  17. 尼丁·金达尔和刘冰。“意见垃圾邮件和分析。” 第一届ACM网络搜索和数据挖掘国际会议记录(WSDM-2008)2008年2月11日至12日,美国加利福尼亚州斯坦福市斯坦福大学。

  18. 尼丁·金达尔和刘冰。“查看垃圾邮件检测。”的程序WWW-2007(海报纸),5月8日至12日,加拿大班夫。

三条评论-你能找出哪些是假的吗?

  1. 我想做这篇评论,是为了评论我和妈妈在皇家加勒比游轮“海上小夜曲”上获得的出色服务。在船上的7天里,上午和下午有很多事情要做。我们去了6个不同的岛屿,看到了一些令人惊叹的景点!这绝对值得事先计划。晚餐服务肯定是五星级的。我们的主要服务员之一,穆罕默德是我见过的最好的人之一。然而,我不是一个喜欢去俱乐部、喝酒或赌博的人,所以晚上对我来说很慢,因为没有太多其他事情可做。除此之外,我向那些希望享受优质服务、美食和一周丰富多彩的日间活动的人推荐小夜曲!

  2. 这部由汤姆·汉克斯(Tom Hanks)、桑德拉·布洛克(Sandra Bullock)、维奥拉·戴维斯(Viola Davis)和约翰·古德曼(John Goodman)等大牌影星主演的电影是2012年最动人的电影之一。虽然有些人可能会说这部电影“太好莱坞了”,而其他人可能仅仅因为演员阵容而看这部电影,但托马斯·霍恩作为年轻奥斯卡的表演才值得获奖。这个故事是关于一个9岁的男孩,他正在一次旅行中,以了解他父亲在世贸中心9/11袭击事件中的悲惨死亡。奥斯卡是一个聪明而紧张的冒险家,只有耳朵里的铃铛声才能让他平静下来。“我做过一次测试,看看我是否患有阿斯伯格氏病,”男孩在解释自己奇怪的行为时说道。悲剧发生一年后,奥斯卡在他父亲最近的房间里找到了一把钥匙,于是开始寻找丢失的锁。奥斯卡努力控制自己的情绪焦虑,建立和修复关系,即使是与母亲的关系,也很难。奥斯卡讲述道:“如果太阳要爆炸,你甚至八分钟都不会知道。”。“八分钟内,世界依然明亮,依然温暖。”奥斯卡离开父亲的那八分钟转瞬即逝,他用了两个小时零九分钟的时间拍摄了一部感人至深、令人难以置信的电影。离开剧院,情绪枯竭,这是一个奇迹,像这样的电影在哪里。我们看到了华氏9/11和曼联93,但最后这是一个纽约家庭努力理解为什么在“最糟糕的一天”无辜的人会死亡的故事。我强烈推荐这部电影作为必看电影。

  3. 高点:鳄梨汉堡相当高;蛤蜊杂烩很好吃。装饰很好,但不值得做坏事。低点:嘈杂、嘈杂、嘈杂。开胃菜一点都不好。而且服务有点滞后。拉斯维加斯和迪斯尼世界的交汇点,但有点俗气。这个咖啡馆是你在塑料雨林里用餐的地方。墙上摆满了假的树木、植物和野生动物,包括电子动画动物。一个流动的瀑布确保你不会听到邻居的谈话而不大喊大叫。我可以看到孩子的生日聚会很有趣(在我们吃饭的时候有好几次),但如果你想好好吃一顿的话,那可不是一个好去处。

  4. 答案在我主页的底部。如果你答对了,请告诉我你的线索。你可以点击下面的我的名字进入我的主页。

创建者刘兵,2008