Py学习  »  机器学习算法

赠书丨京东图计算团队:基于京东Galileo 图深度学习平台,电商广告作弊与反作弊

AI科技评论 • 1 年前 • 203 次点击  

图神经网络是人工智能的一个热点方向,从图的视角解读大数据,可以灵活建模复杂的信息交互关系,吸引大量学者的关注并在多个工业领域得到广泛应用。

《图深度学习从理论到实践》由浅入深,全面介绍图神经网络的基础知识、典型模型方法和应用实践。《图深度学习从理论到实践》不仅包括一般的深度学习基础和图基础知识,还涵盖了图表示学习、图卷积、图注意力、图序列等典型图网络模型,以京东自研的Galileo平台为代表的图学习框架,以及图神经网络在电商推荐和流量风控方面的两个典型工业应用。

《图深度学习从理论到实践》既适合对数据挖掘、机器学习方向以及图建模交叉方向感兴趣的高年级本科生和研究生作为教材使用,也适合互联网电商、金融风控、社交网络分析、药物研发等企业的从业者参考学习。

以下内容节选自《图深度学习从理论到实践》

广告反作弊中的传统图算法

网络广告作弊是由某些团伙和个人借由计算机和手机等智能设备在一定的网络环境下实施的。考虑到作弊成本,作弊团伙的人力资源和设备资源相对有限和固定,一般而言,在网络行径中会呈现出孤立性和集聚性等特点。同时,设备、账户、网络IP地址等信息可以很好的用图数据刻画,是图算法应用的合适场景,图算法在反作弊的团伙挖掘领域有广泛应用。

欺诈用户往往会把自己的欺诈行为伪装成正常的用户行为,以逃避风险监控平台的识别。为了尽量贴近真实用户的购买习惯,作弊平台会对刷手提出一系列要求,比如要求货比三家、最低浏览时长、浏览停留时间以及要求对于正常热销商品做一定购买等,这些行为都会导致已有风控经验指标的部分失效。

典型的传统图算法包括Louvain,Fraudar,D-cube等无监督算法,这类算法的共同点是通过定义稠密度量指标,采用搜索策略进行度量指标优化,从而来检测大图中的稠密子图结构,最终达到识别出欺诈用户群体的目的。这些算法主要适用于检测是否存在团伙、群体欺诈的风控场景(例如,群控设备攻击、群控模拟器欺诈、人工分布式群体欺诈等)。下面对这三种图算法展开简单介绍:

(1)Louvain算法

2008年,Vincent 等提出的Louvain算法,是基于模块度(Modularity)的社区发现算法,采用模块的度来计算社区的稠密程度,其优化目标是最大化整个社区网络模块的度。该算法的计算模式是当一个节点被添加到一个社区中使得该社区的模块度增加,则认为该节点应该属于该社区,否则留在原属社区内。模块度的定义如下:

其中,m为图中边的总数,表示节点对i,j之间的权重,分别表示指向节点i和节点j的边的权重之和,表示节点i当前所在社区。具体来说,模块度的优化目标是想让社区内部点之间的连接相对稠密,而不同社区的点之间的连接相对稀疏。所以模块度也可以理解为社区内部边的权重减去所有与社区节点相连的边的权重和,在无向图上更加容易理解,就是社区内部的度数减去社区内节点的总度数。

Louvain算法示意图

(2)Fraudar 算法

Fraudar算法来自2016年度KDD会议最佳论文,是一种针对二部图中的稠密子图检测算法,旨在找出平台上的伪装虚假团体。虚假账户通过构建与正常用户的联系进行伪装,而这些伪装往往会形成一个稠密的子图。如下图所示,构建用户与目标的二部图。

二部图下的正常连接模式(左)和Lockstep欺诈模式(右)

这里定义三种可疑度,边的可疑度定义为目标入度的衰减函数,x表示边的数目,c为常数,原文中取c=5,即当目标节点的入度越大,与之相关联的边权重值越小;节点可疑度定义为该节点关联的所有边的可疑度之和;子图平均可疑度定义为该子图边的可疑度之和除以子图所包含的节点总数。

Fraudar对边可疑度的含义是,与目标类结点连接的边越多,其可疑程度越小,即根据连接数降权,即交易量越大的店铺,其交易可疑程度越小,因为大概率是真热门店铺。下图展示了客户与热门店铺和刷单店铺的交易网络中,初始各边及结点的可疑度计算,计算过程为:

1)确定目标与相连的边数;

2)计算边的可疑度,结点B1有3条边连接,则其边可疑度为1/log(3+5)=0.48,结点B2有2条边连接,则其边可疑度为1/log(2+5)=0.51

3) 节点,可疑度计算,结点可疑度定义为 F() = (边可疑度),即F(B1)= 0.48*3 = 1.44,F(B2) = 0.51*2 = 1.02, F(A1) = 0.48 + 0.51 = 0.99, F(A2) = 0.0.48+0.51 = 0.99, F(A3) = 0.48。

4)全体结点可疑度:

F(S) = F(A) + F(B) = F(B1) + F(B2) + F(A1) + F(A2) + F(A3) = 4.92

5)全局可疑度:

G(s) = F(s) / |s| = 4.92 / 5 = 0.98

二部图初始边和结点可疑度计算示意图。

(3)D-cube算法

Kijung Shin 等在2017年提出D-Cube算法,它也是一种稠密子张量检测算法,以一个高阶张量的视角来考察图的关系数据。该方法可以看作是一种针对k维超图的稠密子图挖掘算法,相较于仅适用挖掘二部图中的稠密子图的 Fraudar 算法,D-Cube 算法能够从 k-均匀超图中挖掘稠密的高阶子图,可以支持从更高的数据维度来进行问题建模。例如在店铺欺诈评论检测场景中,欺诈者出于任务约束以及资源约束会尽可能多的用他们控制的用户账号对目标店铺集进行虚假评论,当然同时也会存在大量的正常用户账号在一组热门店铺都有过评论,这时除了欺诈用户节点与他们的目标店铺节点会形成稠密子张量外,在建模时可以采用时间维度的信息,比如采用用户-店铺-时间三个维度构成的 3 阶张量建模来捕捉欺诈用户群体在时间维度的聚集性,这样能够从更高的信息维度辨别出真实的欺诈用户群体,如下图所示。

D-cube张量方法

2.图深度学习在广告反作弊领域的应用

近些年随着图深度学习的迅猛发展,图神经网络在风控领域有着广泛的应用。图深度学习算法可以刻画图中的结构信息和节点自身的特征信息,并且深度学习方法有强大的泛化能力,能大幅提升识别效果。如下图所示,根据节点的上下文特征,我们希望采用图神经网络的方法,构建设备的二分类问题,预测用户群体是否属于作弊群体,来达到检测的目的。

图神经网络预测示意图

2018年,Liu等提出了欺诈行为的图嵌入模型(Graph Embedding for Malicious accounts, GEM),认为同时存在设备聚集(Device Aggregation)和行为聚集(Activity Aggregation),并结合两者构建异质图挖掘支付宝上的欺诈行为。其中设备聚集可解释为,受购买设备花销考量,欺诈者一般并不会拥有大量的计算机设备,通常会在相同设备群上采用多个账号的方式实施欺诈行为,称为设备聚集;欺诈者往往需要在某个时期内,完成相应的欺诈任务,受时间的限制,会在设备上执行类似或者说重复性的任务,称为行为聚集。

建图是应用图算法的基础,良好的构图依赖对业务的理解。在现实生活中,相同的IP地址段内,可能同时存在着正常的用户与欺诈者,因此要综合考虑设备积聚和行为积聚。展开而言,设备聚集性表现为一个账户注册或登录同一个设备或一组公共设备,若这一个(一组)设备上有大量其他账户登录,那么此类账户是可疑的;行为聚集性具体表现为,如果共享设备的账户行为是批量进行的,那么此类账户是可疑的。实践中图模型包括,构建关系图、图上特征、图算法三个方面,本案例中采用的图算法模型为GraphSAGE模型,构图关系和图上的特征则需要精细的设计。

(1)图关系

风控中一般将图构建为二部异质图,使用用户的行为数据作为数据源,其中一类节点表示用户(设备),另一类节点则表示为特征节点。如果在同一个时间窗口,多个用户使用了同一个IP,就可以将这个用户和IP关联到一起,构建了一个由用户和节点形成的二部图,边就是二者之间的关系。

(2) 风控场景图特征工程

针对图算法,特征工程和图的构建方式是非常重要的。如果图的结构不合理的话,即使算法模型再强大、特征工程处理得再好,算法训练出的结果也不是最终理想的效果。一些团伙攻击广告主,特征表现为Cookie、IP、utdid(设备唯一标识符)的排列组合,同时,为了绕开基于简单统计的反作弊系统,作弊团伙会让每个设备介质有较少的点击次数。作弊团伙虽然会不断切换IP和账户ID,但是受成本限制,作弊团伙使用过的账户和IP会不可避免的产生一些关联。相较于正常用户,欺诈用户之间具有较强的关联性,可以认为这个簇是一个高可疑作弊团伙,下图是抽取的其中一个簇的行为示例,同颜色的表示使用同一资源,簇中的用户在不断点击京东的广告页面,并且在短时间内不断切换IP、Cookie、useragent等资源以绕过反作弊系统。

相较于正常用户,欺诈用户之间具有较强的关联性

GraphSAGE 是图神经网络模型中一个优秀的模型,它是一种归纳框架,可以利用节点特征信息来高效地为未出现过的节点生成节点向量,模型不是为每个节点专门训练节点向量,而是训练得到一个函数,这个函数功能是从节点的局部邻居节点采样并聚合特征信息,这使得GraphSAGE可以适应大规模图动态变化的场景,聚合函数也有平均聚合,LSTM,最大池化等选项进行调优。同时,GraphSAGE可采用小批量的训练方式,通过采样邻居节点以有效减少内存开销以及训练时间。

在流量风控中为检测出作弊设备,需要将网络关系图构建为包括设备统计节点和设备信息节点的二部图。设备统计节点的特征包含:时序特征(一段时间内的点击量分布)、统计特征(点击量、IP个数、操作系统个数)、节点度等相关特征。设备信息节点则包括设备端口、时间区段、用户代理(User Agent)。GraphSAGE一般适用于同构图中,为了能让该异构网络适用于GraphSAGE,我们采用相同长度N的向量表示两种节点的特征,前m维表示设备节点特征,后面N-m维表示信息节点特征,即采用一种扩展的特征向量,将异质图信息融合成同构图。

节点特征向量分段含义

在设备节点上并无信息节点特征,在信息节点占有的向量分量上按零填充,信息节点也做类似处理,进行初始化,以满足向量有意义的加减。下图中两种颜色分别表示设备节点特征数据占位和信息节点目标节点数据。两类节点,即设备节点和特征节点。设备信息作为关系纽带,将具有同一设备信息节点的设备特征节点关联到一起。

GraphSAGE二阶信息传递过程

假设以计算节点为研究对象,采用两轮的邻域与信息聚合,用表示聚合函数。第一轮时,计算一阶邻居节点。以节点为例子,采用特征更新方式。同样地 。第二轮,计算节点时候,采用融合后的节点信息,,综合第一轮迭代可知,此时节点,包含设备统计节点和设备信息节点,以及本身的初始特征输入,即经历两轮迭代后,可以融合一阶和二阶邻居的信息。若以平均聚合为例,则迭代过程依然可以概括为:

在实际业务中,通过无监督算法如Fraudar等,再由强规则得到的校验的黑白标签数据作为GraphSAGE算法的有监督学习样本部分,进行更大规模的召回。采用图模型后,召回率得到提升,可检出更多作弊设备和账号。

黑产设备(恶意点击)点击示意图

广告流量作为互联网变现的重要方式,虚假流量作为广告产业的灰色领域,是广告流量风控的重灾区。广告反作弊应运而生,成为广告系统的一部分。在实际应用中,我们采用Fraudar无监督学习方法得到的作弊设备作为GraphSAGE图神经网络的标签样本,然后做深度学习训练,召回更多的作弊设备。

目录

第1章深度学习基础

1.1深度学习与人工智能

1.2感知机与神经网络

1.2.1单层感知机

1.2.2多层感知机

1.3前馈神经网络

1.3.1前馈神经网络的模型:

1.3.2前馈神经网络的学习

1.4卷积神经网络

1.4.1图像数据的存储

1.4.2传统图像处理算子

1.4.3卷积

1.4.4池化

1.4.5填充

1.4.6步幅

1.4.7典型的卷积神经网络结构

1.4.8卷积神经网络与多层感知机的差别

1.5深度学习训练的最优化算法

1.6深度学习中的过拟合和欠拟合

1.7本章小结

第2章图基础

2.1图的结构

2.2图的性质

2.3图数据的存储

2.4图与拉普拉斯矩阵

2.5图神经网络简史

2.5.1挑战

2.5.2发展简史

2.6图的任务与应用

2.6.1图的任务

2.6.2图神经网络的应用

2.7本章小结

第3章图表示学习

3.1图表示学习的意义

3.2基于矩阵分解的图表示学习方法

3.3基于随机游走的图表示学习

3.3.1Word2Vec算法

3.3.2DeepWalk

3.3.3Node2Vec

3.3.4随机游走模型的优化策略

3.3.5其他随机游走方法

3.4基于深度学习的图表示学习

3.4.1局域相似度和全局相似度

3.4.2SDNE算法结构图

3.5异质图表示学习

3.6本章小结

| 图深度学习从理论到实践

目录 |

第4章图卷积神经网络

4.1图与图像的差异

4.2传统图信号处理方法

4.3谱域图卷积神经网络

4.3.1谱卷积神经网络

4.3.2切比雪夫网络

4.3.3图卷积神经网络

4.3.4谱域图卷积的特点

4.4空域图卷积神经网络

4.4.1图卷积神经网络空域理解

4.4.2GraphSAGE模型

4.5本章小结

第5章图注意力网络

5.1注意力机制

5.1.1注意力机制的变体

5.1.2注意力机制的优势

5.1.3应用场景

5.2同质图注意力网络

5.2.1图注意力层

5.2.2多头注意力

5.3异质图注意力网络

5.3.1顶点级别注意力

5.3.2语义级别注意力

5.4门控注意力网络

5.5层次图注意力网络

5.5.1视觉关系检测

5.5.2层次图注意力网络模型框架

5.6本章小结

第6章图序列神经网络

6.1传统序列神经网络

6.1.1循环神经网络

6.1.2长短期记忆神经网络

6.1.3门控循环神经网络

6.2门控序列图神经网络

6.3树与图结构的LSTM神经网络

6.3.1非线性结构的LSTM模型

6.3.2GraphLSTM模型

6.4本章小结

第7章图卷积神经网络扩展模型

7.1GCN模型的过平滑问题

7.2层采样加速GCN

7.3关系图卷积神经网络

7.3.1RGCN迭代关系

7.3.2RGCN可学习参数正则化

7.3.3RGCN应用场景

7.4本章小结

第8章图深度学习框架

8.1统一编程范式

8.1.1MPNN

8.1.2NLNN

8.1.3GN

8.2主流框架简介

8.2.1PyG

8.2.2DGL

8.2.3AliGraph

8.3京东图深度学习框架Galileo

8.3.1设计概要

8.3.2图引擎层

8.3.3图训练框架

8.3.4支持算法模型

8.3.5图模型实践

8.4本章小结

第9章图神经网络在推荐场景下的应用

9.1推荐系统的目的与挑战

9.2传统推荐方法

9.3图推荐算法

9.3.1基于图表示学习的推荐方法

9.3.2基于图深度学习的推荐方法

9.4电商业务推荐实践

9.5本章小结

第10章图神经网络在流量风控场景中的应用

10.1背景介绍

10.2广告流量计费模式

10.3广告作弊动机

10.4广告反作弊中的传统图算法

10.5广告反作弊图深度学习方法

10.6本章小结

参考文献

《图深度学习从理论到实践》

作者:包勇军、朱小坤、颜伟鹏、姚普 主编

张新静、陈晓宇、杜华、李杰、刘健、韩小涛、胡俊琪、张维 副主编

定价:89.00元


赠书

AI科技评论本次联合【清华大学出版社计算机分社】为大家带来10本《图深度学习从理论到实践》正版新书。

欢迎大家结合亲身经历,聊聊你和图深度学习的故事(挑战、困难或动力),在本文(仅限AI科技评论微信公众号端)留言区留言,欢迎大家畅所欲言。在综合留言质量(留言是敷衍还是走心)和留言点赞(注:点赞最高的前10不意味着一定会中奖)的读者中选出10位读者获得赠书。

获得赠书的读者请联系 AI 科技评论客服(aitechreview)。

  • 留言内容会有筛选,例如"选我上去"、"这书写的很棒(仅仅几个字)"等内容将不会被筛选,亦不会中奖。

  • 留言送书活动时间为2022年6月12日 - 2022年6月19日(23:00),活动推送时间内仅允许赠书福利中奖一次。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/135760
 
203 次点击