干货!VigDet:一种结合领域知识和数据驱动的虚假账号检测

张一舟:

南加州大学维特比工程学院计算机系博士生,导师为Yan Liu教授。他的研究兴趣包括图数据与时序数据上的机器学习及其应用,如社交网络分析,曾在NeurIPS, KDD, TheWebConf, IJCAI, ICDM等学术会议和期刊上发表论文。他于2019年获得北京大学计算机科学与技术学士学位。




虚假协作账号检测


近年来,在一些大型社交媒体平台,如推特上,出现了很多虚假账号,比如机器人。他们通过协作的的方式,如互相点赞、评论和转发,来干预信息的传播,进而影响公众观点。图1展示了两个被推特官方怀疑存在违规行为的账号的部分活动。这些虚假账号的活跃促使研究者探寻如何自动化地检测他们。传统的方法主要来自计算社会学和人机交互领域。该领域的研究者们通常会利用一些先验知识来构建一个衡量账号之间行为一致性的图(graph,不是图片),然后在这个图上进行聚类或者检测。这种方法过于依赖先验知识的质量,并且表达能力也不强,很多复杂的交互行为被简单的压缩成了一个标量边权。因此,这类方法的准确率普遍较低,尤其是在无监督场景下。为了解决这个问题,近年来的研究开始使用数据驱动的的机器学习方法来为账号学习表示向量,然后在表示向量空间进行检测。比如AMDN-HAGE,通过最大化社交媒体上观测到的时序数据的似然值(类似自然语言处理中的词向量学习,用过去的事件的表示向量来预测未来事件)来学习账号的表示向量。但是这类方法又很依赖数据的质量和规模。对于一些活动频率低、相对沉默的账号,这类方法往往学不到很好的表示。为了解决这一问题,我们提出了VigDet。这一模型利用领域知识来帮助神经时序点过程(一种数据驱动模型)学到更好的表示。


图1: 协作行为的样例。这两个账号被推特官方怀疑存在违规行


时序点过程与其神经网络建模


图2: 社交媒体上时序点过程的样例


时序点过程(如泊松过程)是一种常见的随机过程。它描述了连续时间轴上发生的一系列离散事件。社交媒体上的事件(如发布信息、点赞、转发和评论)是一种非常典型的时序点过程。图2展示了如何将一条信息的传播建模为时序点过程。一条信息(比如一条推特)发布的时刻即为时间轴上的0点,之后每个与该条信息的交互(如点赞评论转发)即为一个事件。每个事件包含两个信息:用户id和时间戳(此处为了适应不同平台的设计,我们略去了具体的事件类型)。每个事件发生的概率被建模为给定之前发生的所有事件的条件概率。我们使用神经网络来建模这一分布:



其中S[1:i-1]表示第i个事件前的所有事件,我们可以用RNN或者Transformer来讲他们编码为一个向量Ci,然后分别用两个解码器fm和ft来预测未来交互的用户和时间。然后我们通过最大化已观测到事件的似然值即可学习模型参数。具体流程如图3所示。


图3:使用神经网络建模时序点过程


VigDet:结合领域知识与神经点过程


为了将领域知识表达为可供机器学习模型学习的形式,我们先像传统方法一样,利用先验知识构建一张衡量账号之间行为一致性的图。本文中,我们使用“共同活动”(co-activity)这一先验知识,即经常和同一条信息交互的用户行为更一致。在以此先验知识构建的图中,两个用户间的边权为他们共同出现过的时间序列的总量。然而,传统方法构建的图往往含有噪音,这是因为受虚假账号影响的真实账号也可能会和虚假账号共同出现。因此我们需要对图进行降噪。此处我们提出了两种方法:幂函数降噪与时序逻辑降噪。


幂函数降噪(Power Function,PF):尽管真实账号可能和虚假账号共同出现,但是统计意义上虚假账号共同出现的概率更大,因此我们可以使用幂函数来放大这种差异,然后对边权进行归一化。


时序逻辑降噪(Temporal Logic,TL):我们可以将更多的先验知识表示为时序逻辑,然后利用这些时序逻辑去除掉一些没有意义的共同出现,比如过于热点的序列(所有人都回应过)

利用以上两种策略,我们可以获得一个降噪后的先验知识图。接下来,我们需要考虑如何结合图和时序数据来进行协同检测


结合领域知识与表示学习进行检测


为了将图和基于时序数据的用户表示学习结合到一起,我们提出利用用户的表示向量与先验知识图共同构建一个条件随机场(Conditional Random Field,CRF)。条件随机场是一种概率图模型。概率图中的每个节点是一个待检测的用户。我们把整个图中所有节点的检测结果合集记为Y,则每个可能的Y的概率为:



其中是能量函数,包含两项,第一项是基于单个节点的embedding计算出的标签的倾向性,第二项是基于每条边上的用户标签的一致性计算出的倾向性。直观来看,第一项包含了来自用户表示向量的信息,而第二项包含了领域知识图的约束(行为一致性更高的用户更有可能具有相同的标签)。Z是对所有可能的Y的能量函数求和以保证P是一个概率分布。然而,Z本身是对指数多的Y进行求和,因此时间复杂度极高。为了解决这个问题,我们提出通过图4所示的EM算法来同时学习P和P的平均场近似Q。在这个算法中,E-step和M-step交替进行。E-step中我们固定P和能量函数,只计算P的最优平均场近似Q(最小化P和Q的KL散度)。在M-step中,我们固定Q不动,转而通过优化数据似然值的证据下界(Evidence Lower Bound)来学习模型参数。


图4: 用于联合学习能量函数和平均场近似的EM算法


实验结果


我们首先在一个带有真实标签的数据集上比较了我们的模型和已有模型的准确性。除已有模型,我们还加入了我们的模型的两个变体。一个只包含了我们算法中的E-step,另一个则是实用伪似然来进行学习。比较结果如表1表2所示。可以看到我们的模型表现显著超越了已有模型和自身变体。


我们进一步在一个新冠新闻相关的推特数据集上做了检测。由于这个数据集很新,所以没有真实标签。因此无法进行计算准确率和进行对比。但是我们仍对检测结果进行了一定的分析。图5展示了我们检测出的疑似虚假账号的主要回应话题和其余账号的主要回应话题。可以看出二者之间的显著差异。


表1: 无监督学习的结果


表2: 半监督学习(提供5%的用户标签)的结果


图5:疑似虚假账号群体的主要交互话题(左)和其余用户的主要交互话题(右)

展开阅读全文

页面更新:2024-03-08

标签:账号   虚假   知识   数据   干货   向量   时序   模型   过程   领域   事件   用户

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top