如何利用大数据发现非法传销网络?

如何利用大数据发现非法传销网络?

注:本文版权由周涛教授团队所有,首发于微信公众号「DataCastle数据城堡」(ID:DataCastle2016),如需转载还请提前联络songdi@datacastle.cn,非常感谢。


非法传销在国内一直是个屡禁不止的毒瘤。最近,东北大学毕业生李文星之死,使得这个问题再次暴露出来。


正如魏泽西之于虚假广告,徐玉玉之于电信诈骗,李文星的意外死亡,使得在国内多地明火执仗、存在多年、甚至和本地人民“水乳交融”的传销组织突然面临前所未有的严厉打击。


我们和中国X动通信集团公司(考虑到本工作的敏感性,这里不方便透露合作公司的全名)合作探索如何快速从通话行为中甄别出传销网络。


下面我给出如何利用数据挖掘和网络科学的方法以几乎100%的准确率和0%的错误判断率来发现非法传销。一些数据和方法的细节,不在本文中详细介绍。


我们分析了一个子网络中4天的通话网络并处理成无向网络。


其中用户被分成四类:普通用户、某大型企业员工、服务帐号、传销组织人员。


我们从这些用户中选取一位作为种子节点,画出从这个节点出发按广度优先搜索(走有限几步足矣)获得的子网(这样的网络,我们称之为ego networks[1][2])。

广度优先搜索 | 是最简便的图的搜索算法之一,这一算法也是很多重要的图的算法的原型。其别名又叫BFS(Breadth First Search),属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位置,而是通过彻底地搜索整张图,直到找到结果为止。


下面4个图分别是从普通用户、服务帐号、企业某领导、传销组织某头目出发得到的4个ego networks。

ego network | 它的节点是由唯一的一个中心节点(ego),以及这个节点的邻居(alters)组成的,它的边只包括了ego和alter之间,以及alter与alter之间的边。


大家可以看到,普通用户和服务帐号与传销网络相去甚远,但是公司也有类似于传销网络的层次管理结构[3-5]。

图1:某普通用户的ego network。


图2:某服务帐号的ego network。


图3:某企业领导的ego network(局限在本企业员工中)。


图4:某非法传销组织头目的ego network。


通过四种常见用户群组通话网络的比较,我们发现传销网络呈现与实际业务模式相一致的类树状层级结构。


而与传销组织有着相同层级模式的公司用户群网络层级模式也非常明显,但是非相邻层级之间,非同一组之间的节点也有通话。我们因此总结了传销网络三种明显的特征:

  1. 节点之间不跨级联系。
  2. 同级不抢占下线。
  3. 同级非同上线节点不联系。

基于我们总结的传销组织三类特征,我们定义了三个特征指标,如表1。


注意,i1指标中如果一个节点i有两个位于上一层的连边j1和j2,则按照广度优先搜索的顺序,第一个扩展到i的节点被认为是i的父节点。

父结点 | (the parent node)在数据库管理中的数据模型中,早期阶段的层次模型和网状模型中,一个属性如果有上一级,则称这个上一级是它的父节点,如果没有上一级,则这个属性则无父节点。


表1:网络属性量化指标


仅仅利用这三个指标,我们就可以很好分辨出不同ego网络是不是疑似传销网络,如表2。


表2:基于四类有向无权网络计算的指标信息。


当然,传销网络还有很多特征是和一般网络不一样的,例如涉及传销的网络的用户出度和入度分布都和其他网络大不一样[6],可以设计简单指标来做清楚的区分,例如出度为2-10的节点总数比上出度为1的节点总数。

入度 (in-degree) | 以某类顶点为弧头,终止于该顶点的弧的数目称为该顶点的入度 。
出度 (out-degree) | 以某类顶点为弧尾,起始与该顶点的弧的数目称为该顶点的出度。


图5:出度分布的比较,其中目标用户群指传销组织


图6:入度分布的比较,其中目标用户群指传销组织。


根据以上分析(如果加上一些更细致的特征,还能够得到更好的结果。但因为本问题的敏感性,只能暂时留白),我们可以设计疑似传销网络的生长算法,从任何一个节点出发,生长出可能的最大的疑似传销网络,然后根据生长情况判断它是不是一个传销网络。


如表3所示,我们能够覆盖节点数占比大约只有0.1%的疑似传销人群,但是对于其他已经甄别出来没有问题的人群完全不误判(准确甄别使用的是公安部门的结果)。


表3:节点覆盖度


如图7所示,我们算法基本覆盖了传销网络的所有核心,只有少量外围节点算法本身无法确认是不是传销分子。但是这完全不影响我们调查和抓获这个传销组织。


图7:算法识别出的可疑节点的覆盖区域图示,红色节点为算法识别出的可疑节点。


个人隐私数据的泄露曾经给了很多电信诈骗的不法分子以可乘之机,但数据科学的正确使用也可以帮助揭示非法组织,保护我们的人身和财产安全。


同时,大家不用担心传销组织通过学习本文而更难被发现。因为,改变本文所描述的一些特征意味着改变传销的组织和运营模式,代价不是他们能够接受的。并且,本文所描述的,只是算法中最简单的一小部分,我们并不仅仅只是通过这些特征量来识别非法传销。


最后,感谢参与本文工作的贡献者,他们是李艳丽、刘阳,谢文波、徐腾、罗琇、翁先正、马国斌、许海泉、尚杰、邓先辉、康丽、陈端兵。


参考文献

[1] Leskovec, J., & Mcauley, J. J. (2012). Learning to discover social circles in ego networks, NIPS'2012, pp. 539-547.
[2] Wang, Q., Gao, J., Zhou, T., Hu, Z., & Tian, H. (2016). Critical size of ego communication networks. EPL (Europhysics Letters), 114(5), 58004.
[3] Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., & Barabási, A. L. (2002). Hierarchical organization of modularity in metabolic networks. science, 297(5586), 1551-1555.
[4] Ravasz, E., & Barabási, A. L. (2003). Hierarchical organization in complex networks. Physical Review E, 67(2), 026112.
[5] Clauset, A., Moore, C., & Newman, M. E. J. (2008). Hierarchical structure and the prediction of missing links in networks. Nature, 453, 98-101.
[6] Barabási, A. L., & Albert, R. (1999). Emergence of scaling in random networks. science, 286(5439), 509-512.

作者介绍:周涛,电子科技大学教授、大数据研究中心主任。主要从事统计物理与复杂性,数据挖掘与数据分析方面的研究。在Physics Reports、PNAS、Nature Communications等国际SCI期刊发表300余篇学术论文,引用17000余次,H指数为63。《大数据时代》译者,《为数据而生:大数据创新实践》作者。


* 关注「DataCastle数据城堡」微信公众号,获取更多周涛老师原创文章。

编辑于 2017-08-28 11:21