导读:本文将分享图算法在风控中的应用。
今天的介绍会围绕下面四点展开:
-
图算法和风控简介
-
图算法在风控的演化
-
相应平台的心得
-
展望未来
分享嘉宾|汪浩然 互联网行业资深风控和图计算专家
编辑整理|戴杰 永辉超市
出品社区|DataFun
01/图算法和风控简介
1. 什么是图算法——图论算法
图算法最早来源于图论和组合优化相关算法,在风控里面应用比较多的基本上都是传统的图算法或比较偏数学理论的算法,如最短路径发现,不同的账号和交易之间存在异常的最短路径,某些账号或设备存在异常的关联。另外,还有图的识别,比如洗钱,会涉及到异常的环路。
早期图在风控的应用都是基于明确的数学结构定义,如果大家仔细研究这些算法,会发现有的算法是多项式时间可以解决的,有些是多项式时间无法解决的,比如 NP-hard 问题。在团或圈的发现算法中,其实会用到一些近似算法。而且风控中有意思的一点是数学上定义得越严格,黑产绕过就越容易。比如黑产知道你的目的是发现团,他会故意某几个设备少一两条边,那数学严格的定义就很容易被绕过。
2. 什么是图算法——图机器学习
早期业内是直接应用这套传统图算法到风控中,随着技术的发展,图机器学习也开始应用在风控中。比如早期本人在交易场景中落地了一个标签传播算法,它是一个 Transudative 推演式的算法(非归纳式)。
在现实应用中,很多时候我们没有办法对黑白灰样本去做完全精确的定位。那该如何利用类似社交网络的同质性(好人和好人关系近,坏人和坏人关系近)做团伙识别?在风控场景,很容易通过强规则产出高准确率的样本,但覆盖率很低(低召回),那么如何扩充这些样本呢?
此时标签传播算法和半监督技术就开始在风控中使用。图神经网络的半监督学习,其学习能力和鲁棒性高于传统图算法。有别于传统的图算法的自定义 Aggregate 和 Message Passing,随着图神经网络的发展,也越来越多的应用到风控场景。
3. 什么是图算法——图挖掘算法
风控场景中使用到很多图挖掘算法,如:
-
高密度子图,一些异常账号和异常行为对象之间会存在高密度子图。
-
邻居域异常,异常节点、边、网络存在异常的形状(如星形散射状),即该账户的邻居域异常。
-
复杂网络,比如异常网络的度分布和正常网络的度分布是不同的。如有时挖掘了一些团伙,可以基于 Degree Sequence 构建特征和模型。不同 Degree Sequence 分布的网络存在不同的特性,这可以指导我们进一步构建拓扑相关特征。
4. 什么是风控
上图中的台词很好地概括了风控的工作,“人活一世,有的人成了面子,有的人成了里子,都是时势使然”。从事金融风控、交易风控,风控规则和算法是公司的核心竞争力,都需要保密。有很多精彩的算法及落地不方便出来交流,可能很少有人知道,但这都成了里子。风控同学也是甘于寂寞,不断地去进行各种对抗,同时也在钻研技术和业务。
5. 互联网风控干什么
众所周知的羊毛党薅羊毛、账户被盗、盗卡、现金贷、“以贷养贷”、猫池、恶意退货、物流空包、各种各样的诈骗、杀猪盘等等,这些场景都属于互联网风控范畴。
6. 图算法和风控的相遇
为什么图算法和风控会相遇?黑产作案存在团伙性,