机器学习在金融领域防欺诈应用实践浅析｜大湾区金融安全专刊·安全村

2023年12月26日14:07:58评论57 views字数 5933阅读19分46秒阅读模式

摘要：商业活动的数字化进程中，网络欺诈活动左右相随，金融业在其中则是重点灾区。本文分析了金融业网络欺诈的典型场景、实施反欺诈的收益，以及实施反欺诈的策略，并以识别仿冒网站为例给出了简要实践示例，旨在为金融业提高数字化安全能力添砖加瓦。

前言

随着互联网和移动互联网的长足发展，商业活动的数字化进程也得到了快速发展，电子商务现在已经成为日常经济活动的重要组成部分。然而，随之而来的就是网络犯罪，据报道网络犯罪对全球经济造成的损失为每年6千亿美元，约占全球GDP的0.8%，其中针对银行和消费者的欺诈行为造成了每年数十亿美元的损失，而这些损失还不包括间接损失，以及银行的数字品牌风险，即失去其客户的信任。

值得关注的是以上的欺诈行为往往是通过仿冒官方网站、APP、关键员工等社会工程实现，并非高科技入侵行为。在动态的、大量的网络经济活动中监测欺诈行为成为了金融行业的重要挑战。然而，困难并非不能实现，让我们一起来看机器学习和人工智能的应用，是如何在金融领域用于监测欺诈行为的良好实践。

以下在我们谈及机器学习（ML）和人工智能（AI）时，机器学习是指在没有人类分析师帮助的情况下通过数据集“学习”某种模式的分析方法；人工智能时指使用特定模式的分析预测业务的方法，例如：监测金融交易欺诈。

场景

在金融领域，常见的机器学习用于防范欺诈的场景包括识别仿冒网站、识别仿冒APP、识别仿冒社交媒体账号、识别商业邮件欺诈，以及识别金融业务欺诈等领域。

仿冒网站：攻击者通过仿冒的钓鱼网站，引诱用户提供姓名、电话、身份证号、网银账号、用户名、密码等敏感信息，导致企业品牌和用户利益均受到损害。移动时代的到来，也促使了钓鱼手法的演变，最明显的是出现了大量的适配手机界面的钓鱼网站，无论从内容上还是形式上都与正规网站极为相似，用户往往无法辨别。

以英国国家网络安全中心（NCSC）公开的2021年仿冒网站处置数据为例，高居前三位的仿冒网站攻击分别为：国家彩票、英国金融市场行为监管局、英格兰银行。需要注意的是该数据是经监测发现并成功处置的仿冒行为，并非全部潜在存活的仿冒网站数字。

仿冒APP：攻击者开发仿冒的企业App，滥用品牌Logo、商标，并通过未授权渠道分发下载，试图骗取各类受害用户的银行卡账户、身份账号、各种密码等私密信息。

仿冒社交媒体账号：攻击者在社交媒体创建假冒企业账号，或假冒企业高管、明星或名人，试图骗取各类受害用户的银行卡账户、身份账号、各种密码等私密信息。

示例：假名人投资欺诈

商业邮件欺诈：欺诈者通过注册与客户主体接近的域名，并发送相关邮件，利用社会工程学技巧，进行仿冒和欺诈活动。与纯粹的电子邮件欺骗（Email Spoofing、伪造电子邮件头、散播钓鱼网址链接或恶意附件）不同，这类邮件欺诈往往更加隐蔽，目标对方一般是公司管理层或财务等核心部门人员。

业务欺诈：分析大量交易数据，以发现欺诈模式，用于实时检测欺诈。当人工智能模型怀疑交易存在欺诈行为时，可选择拒绝交易或将交易标记为可疑以进行进一步调查，并给出评估欺诈的潜在原因，将有限的调查人员工作时间集中在最有可能是欺诈行为的实例上；AI模型为被标记的可疑交易提供原因代码，这些原因代码可以指导调查人员加快调查速度；人工智能还可以在调查人员评估和清除可疑交易时学习和修正其知识模型，从而提高识别欺诈的准确性。

新巴塞尔资本协议下风险计量的方法要求银行有充足的历史数据，包括可信的违约数据，并运用合理的数据挖掘技术对尽可能长时间段的数据进行清洗、聚类和关联特征分析。

收益

通过对金融欺诈行为的识别和打击，金融机构可以避免直接的经济损失、避免合规损失，以及各种间接的损失和投入。

风险管理收益：金融业，尤其是银行业天然伴随着风险，通过机器学习，发现以信用风险为核心的综合风险，从而制定相应控制、转移策略，避免风险损失；通过机器学习发现仿冒钓鱼网站、仿冒APP以及仿冒社交媒体账号，控制操作风险。良好的风险控制系统，可以为金融业带来可直接计算的、可观的收益。

合规收益：金融监管机构对反欺诈有明确的规定，金融机构必须加强安全技术防范措施，需加强主动侦测钓鱼网站机制建设，主动搜索钓鱼网站，并采取多种措施及时关闭钓鱼网站，否则将面临被监管通报批评的后果。早在2011年，中国银监会就下发《中国银监会办公厅关于进一步加强网上银行风险防控工作的通知》，各银行业金融机构应高度重视网上银行风险管控，加强对仿冒网站等“钓鱼”诈骗事件的防范，与此同时加强反“钓鱼”应急处置机制建设，有效切断“钓鱼”诈骗渠道。2020年，中国人民银行发布《网上银行系统信息安全通用规范》，该规范中专门规定了“防钓鱼”的要求：金融机构应具有防网络钓鱼的功能；应采取防钓鱼网站控件、钓鱼网站监控工具、钓鱼网站发现服务等技术措施，及时监测发现钓鱼网站，并建立钓鱼网站案件报告及快速关闭钓鱼网站的处置机制；应加强防钓鱼的应用控制和风险监控措施。

间接收益：良好的风险管控和合规管理，可以在公司品牌价值、运营成本等多层面带来间接收益。

策略

在实际运营过程中，从大流量数据或遍布全球的网站、APP、社交媒体中识别欺诈行为对数据分析而言是一种挑战，除了要解决大流量数据和广泛的分布性问题以外，识别欺诈行为往往还需要应用到音频、视频、自然语言处理技术等多模态联合处理模式。而这些挑战恰好是机器学习擅长应对的领域。机器学习可以被用来区分合法行为和欺诈行为，随着时间的推移，机器学习可以对新的、以前未知的欺诈方法做出快速地、适当地反应。

应用机器学习，可以参考如下策略：

1.联合多种机器学习算法

反欺诈是一场持久战，金融机构所面对的有组织犯罪者是智力犯罪群体，单一的对抗方法很难对他们形成有效的狙击，因此综合应用多种机器学习方法是必要的，包括有监督机器学习模型和无监督机器学习模型，以及强化学习模型。需要注意的是使用有监督机器学习模型时，训练数据将对机器学习的结果产生影响。

2.关注特征数据分析

机器学习通过特征分析进行结果预测，因此识别特征数据是机器学习的重要环节，例如：交易信息有助于识别交易模式，这些模式包括平均支付速度、交易的时间和天数、以及地理分布信息等。仿冒网站也可以通过可获取的信息进行特征分析，例如：IP地址、URL长度、域名注册时间等特征。

机器学习在金融领域防欺诈应用实践浅析｜大湾区金融安全专刊·安全村

示例：虚假网站识别特征集

3.关注特征数据集质量

优秀的的欺诈检测模型是通过大量训练数据来形成的，机器学习模型从数百万到数十亿甚至更多的数据实例中（包括有效的数据和欺诈数据）中获得的知识，我们应当尽可能提高机器学习所使用的特征数据集的准确性。

4.持续学习

犯罪者对目标金融机构的攻击往往是持续的、动态更新的，这使得金融机构必须采用动态的、自适应的方法来应对攻击，持续改进防御效果。我们称之为持续学习，在持续学习过程中需要关注机器学习参数的变化以及调查触发因素，寻找False Positive和False Negative的平衡，

分析师的人工判断也将反馈到机器学习模型中，并通过自动调整欺诈识别模型中预测特征的权重，改进欺诈检测模型。

实战示例

虽然机器学习与人工智能擅长处理大规模数据，算力对于我们仍然是宝贵的资源，因此，采用适当的方法降低运算也是实践中要重点考虑的因素，接下来让我们利用一个简化的仿冒网站识别流程来看一下结合机器学习与人工智能的技术的综合应用。

利用情报技术缩小目标范围：虽然仿冒犯罪分子混迹于互联网中，尽量隐藏身形，我们还是拥有缩小范围的方法。首先，我们可以通过第三方认证和长期的积累，定义白名单网站；将新注册和新发现活跃的网站定义为存疑；将历史上曾经有仿冒行为的域名和IP地址定义为高可疑。通过以上定义，我们可以先将待识别目标范围缩小并作出了初步排序。
相似域名识别：利用编辑距离、Jaccard距离或者余弦相似度算法，将可疑域名与受保护域名进行相似度对比，进一步调高与受保护域名相似的可疑域名的可疑度。
提取并识别关键要件：提取网站关键词、图片、音视频、网站技术指纹等要件，与目标网站进行相似度对比，此环节是各种机器学习算法的应用，在必要的时候应采用多模态进行综合对比。符合阈值范围的网站将作为目标疑似仿冒网站输出。下图为OpenCV对比示例：

机器学习在金融领域防欺诈应用实践浅析｜大湾区金融安全专刊·安全村

示例：目标对比物Base、Test1、Test2

机器学习在金融领域防欺诈应用实践浅析｜大湾区金融安全专刊·安全村

示例：图像相似度对比结果

小结

只要网络经济活动持续开展，网络欺诈行为就将持续发生，电子邮件网络钓鱼、仿冒网站、仿冒APP、仿冒社交账户和身份盗用都会导致对弱势用户数据的大量犯罪攻击，从而导致数据泄露和经济损失。通过将机器学习的各种算法应用于业务场景，金融组织可以快速、准确、自动化的识别复杂欺诈行为。

参考资料：

《神经网络与深度学习》，机械工业出版社
《金融数据挖掘与分析》，机械工业出版社
Active Cyber Defence, https://www.ncsc.gov.uk
How Is AI Used In Fraud Detection, https://analyticssteps.com
Fraud Detection With Machine Learning, https://spd.group
Histogram Comparison, https://docs.opencv.org

附录：OpenCV对比源代码

#include"opencv2/highgui/highgui.hpp"

#include"opencv2/imgproc/imgproc.hpp"

#include<iostream>

#include<stdio.h>

usingnamespacestd;

usingnamespacecv;

/**

* @function main

int main( int argc, char** argv )

{

Mat src_base, hsv_base;

Mat src_test1, hsv_test1;

Mat src_test2, hsv_test2;

/// Load three images with different environment settings

if( argc < 4 )

{

printf("** Error. Usage: ./compareHist_Demo <image_settings0> <image_setting1> <image_settings2>n");

return-1;

}

src_base = imread( argv[1], 1 );

src_test1 = imread( argv[2], 1 );

src_test2 = imread( argv[3], 1 );

/// Convert to HSV

cvtColor( src_base, hsv_base, COLOR_BGR2HSV );

cvtColor( src_test1, hsv_test1, COLOR_BGR2HSV );

cvtColor( src_test2, hsv_test2, COLOR_BGR2HSV );

/// Using 50 bins for hue and 60 for saturation

int h_bins = 50; int s_bins = 60;

int histSize[] = { h_bins, s_bins };

// hue varies from 0 to 179, saturation from 0 to 255

float h_ranges[] = { 0, 180 };

float s_ranges[] = { 0, 256 };

constfloat* ranges[] = { h_ranges, s_ranges };

// Use the o-th and 1-st channels

int channels[] = { 0, 1 };

/// Histograms

MatND hist_base;

MatND hist_test1;

MatND hist_test2;

/// Calculate the histograms for the HSV images

calcHist( &hsv_base, 1, channels, Mat(), hist_base, 2, histSize, ranges, true, false );

normalize( hist_base, hist_base, 0, 1, NORM_MINMAX, -1, Mat() );

calcHist( &hsv_test1, 1, channels, Mat(), hist_test1, 2, histSize, ranges, true, false );

normalize( hist_test1, hist_test1, 0, 1, NORM_MINMAX, -1, Mat() );

calcHist( &hsv_test2, 1, channels, Mat(), hist_test2, 2, histSize, ranges, true, false );

normalize( hist_test2, hist_test2, 0, 1, NORM_MINMAX, -1, Mat() );

/// Apply the histogram comparison methods

for( int i = 0; i < 3; i++ )

{

int compare_method = i;

double base_base = compareHist( hist_base, hist_base, compare_method );

double base_test1 = compareHist( hist_base, hist_test1, compare_method );

double base_test2 = compareHist( hist_base, hist_test2, compare_method );

printf( " Method [%d] Perfect, Base-Test(1), Base-Test(2) : %f, %f, %f, %fn", i, base_base, base_test1, base_test2 );

}

printf( "Donen" );

return0;

}

作者介绍

刘广坤：天际友盟技术总监，有着飞行器制造安全系数3.0 理念的信息安全工作者。

‍

关于大湾区金融安全专刊

大湾区专刊集合了全国数十家金融和科技机构的网络安全工作经验总结，内容涉及防护体系、资产管理、研发安全、攻防演练、安全运营、数据安全、业务安全七大主题方向，希望能为从业者提供网络安全防护方面的整体思路，向行业传播可持续金融创新和实践经验，为推动可持续金融生态发展汇聚智慧与力量。

关于安全村

安全村始终致力于为安全人服务，通过博客、文集、专刊、沙龙等形态，交流最新的技术和资讯，增强互动与合作，与行业人员共同建设协同生态。

专刊获取方式

本次专刊的合作机构如下

赶紧关注他们

联系获取纸质版专刊吧！

机器学习在金融领域防欺诈应用实践浅析｜大湾区金融安全专刊·安全村

‍

原文始发于微信公众号（安全村SecUN）：机器学习在金融领域防欺诈应用实践浅析｜大湾区金融安全专刊·安全村

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

机器学习在金融领域防欺诈应用实践浅析｜大湾区金融安全专刊·安全村

SmartAttack 利用智能手表从气隙系统窃取数据

Output Messenger 漏洞被利用作为间谍攻击的零日漏洞

高危预警！Windows曝反射型Kerberos中继攻击漏洞，攻击者可直取SYSTEM权限(含POC链接)

非法获取个人信息16万余条，是谁在非法买卖个人信息？

Discord邀请链接被劫持：AsyncRAT与Skuld木马悄然窃取加密资产

《华盛顿邮报》遭网络攻击多名记者邮箱遭入侵

美国两大保险巨头伊利保险（Erie Insurance）、费城保险(PHLY)遭勒索攻击，超15TB客户信息等数据泄露

APT-C-60（伪猎者）攻击演进：基于GitHub的动态载荷分发与指令中继

警惕 | CNCERT：关于BlackMoon变种HTTPBot僵尸网络的风险提示

印度汽车共享公司Zoomcar遭遇数据泄露，影响840万用户

发表评论

在线咨询

微信