带你读论文丨异常检测算法及发展趋势分析

3547 篇文章 365 订阅
订阅专栏
本文探讨了基于深度学习的异常检测算法,包括有监督、无监督和半监督方法,着重介绍了自编码器和生成对抗网络的应用。尽管深度有监督方法精度高但依赖大量标注数据,无监督方法在实际应用中误报率较高,未来研究可能聚焦于如何在小样本和噪声环境下提升模型性能,以及群体异常检测这一新兴领域。
摘要由CSDN通过智能技术生成

摘要:本文根据对现有基于深度学习的异常检测算法的调研,介绍现有的深度异常检测算法,并对深度异常检测算法的未来发展趋势进行大致的预测。

本文分享自华为云社区《【论文阅读】异常检测算法及发展趋势分析》,原文作者:MUR11。

异常检测问题是很多实际应用场景中的一个重要问题。本文根据对现有基于深度学习的异常检测算法的调研,介绍现有的深度异常检测算法,并对深度异常检测算法的未来发展趋势进行大致的预测。

一、异常检测应用场景

异常检测在实际生产生活中有大量的应用。例如:从信用卡交易记录中找出潜在的盗刷或套现记录、在交通监控视频中找出违法的交通参与者、在医学影像中找出病变的组织、在网络中找出找出入侵者、从物联网传输的信号中找出异常传输等。

当前大部分异常检测场景高度依赖人工,对于人力有大量的需求。未来随着老龄化加剧、工作人口减少,使用算法代替人工进行异常是大势所趋。

 https://bbs-img.huaweicloud.com/blogs/img/1622275245717067520.png

二、常见异常类型

常见的异常类型可以分为三类:

  • 点异常:单个样本/采样点明显偏离其他所有样本/采样点的分布。例如:在信用卡交易记录中,如果一个用户日常的交易都是小额交易,突然出现的一笔大额交易就是一个点异常。
  • 条件异常:单个样本/采样点与其他一些条件的联合分布明显偏离其他样本/采样点的情况,称为条件异常。例如:某地一年内的气温变化范围为-10度到40度,正常情况下每日气温应该在上述范围内。但是如果夏季的某一天温度达到-5度,虽然当天温度仍在正常范围内,但是结合季节来看则是一个明显的异常,这类异常属于条件异常。
  • 群体异常:单个样本/采样点正常,但是大量样本/采样点整体呈现出异常。例如:仍以信用卡交易记录为例,如果一个用户日常的交易都是小额交易,某一天突然出现了10笔小额交易,且每笔交易的金额相同,虽然从每笔交易来看都符合用户的使用习惯,但是这10笔交易结合在一起看却存在异常,该类异常属于群体异常。

https://bbs-img.huaweicloud.com/blogs/img/1622275259131041396.png

上述三类异常中,条件异常经过一定的转换后等价于点异常,因此实际上常见的异常类型只有点异常、群体异常两种。当前业界的研究和应用主要集中在点异常的检测上,下文也将重点介绍点异常的检测算法。

三、异常检测算法

当前主流的异常检测算法通常基于深度学习技术,按照使用的监督信息可以分为有监督方法、无监督方法、半监督方法。此外,也有一些将深度学习技术和传统的非深度学习技术结合在一起的异常检测算法。下面对这几类方法分别展开介绍。

3.1深度有监督方法

深度有监督学习是目前深度学习研究最充分、应用最广泛的一类方法。利用这类方法进行异常检测时,包括数据收集、模型训练、模型推理三个阶段:

  • 数据收集:收集正常样本、异常样本,并对样本进行标注;
  • 模型训练:使用标注好的样本训练模型,以基于图像的异常检测为例,常见的模型包括图像分类模型(判断样本是否异常)、目标检测模型(大致定位图像中异常的位置)、语义分割模型(精确定位图中异常的区域);
  • 模型推理:将待分析的样本喂给模型,模型经过运算后,输出结果。

这类方法的优点是实现简单、精度高,缺点是需要收集大量的正常样本和异常样本并进行标注。实际中,异常样本往往是很稀缺的,通常难以收集足够数量的异常样本来训练模型,因此也就无法应用深度有监督异常检测方法。

3.2 深度无监督方法

为了更好地应对实际应用中难以收集到足够数量的异常样本的情况,深度无监督异常检测方法通过建模正常样本,来间接地实现异常检测的功能。具体来说,深度无监督异常检测的步骤如下:

  • 数据收集:收集大量正常样本;
  • 模型训练:通过训练模型建模正常样本,常用的模型包括自编码器、生成对抗网络等;
  • 模型推理:将待分析的样本喂给模型,得到模型的输出;
  • 比对:通过比对待分析的样本和模型的输出之间的差异,基于事先设定的阈值判断是否存在异常。

该类方法是目前使用深度学习技术进行异常检测的主流方法,其中具有代表性的两类模型分别是自编码器和生成对抗网络。

3.2.1 自编码器

仍以图像异常检测任务为例。使用自编码器模型检测图像中的异常时,流程如下:

  • 数据收集:收集大量正常的图片;
  • 模型训练:模型结构如下图所示 [1]。训练时,模型的输入是正常的图片;训练的目标是使模型的输出与输入尽可能相同,常用的衡量指标包括像素级的L2损失、L1损失、SSIM损失等。这类方法的假设是:由于训练过程中模型只见过正常图片,因此无论输入什么样的图片,模型都会倾向于将输入图片重构为正常图片,因此异常图片的重构结果会和输入图片之间存在明显的差异;
  • 模型推理:以待分析的图片作为模型的输入,模型经过运算后,输出一张经过模型重构的图像;
  • 比对:通过判断输入图像和输出图像之间的像素级重构误差(一般通过L2损失或SSIM损失计算得到),通过将重构误差的值和事先设定的阈值进行比较,如果重构误差的值小于阈值,则判定不存在异常,否则认为图像中存在异常。

https://bbs-img.huaweicloud.com/blogs/img/1622275268971023973.png

3.2.2 生成对抗网络

使用生成对抗网络模型检测图像中的异常时,流程如下:

  • 数据收集:收集大量正常的图片;
  • 模型训练:模型结构如下图所示 [2]。训练时,模型的输入是正常的图片,训练的目标是使模型生成的图片和真实的正常图片具有相同的分布。该训练过程通过生成器和判别器两个子模型共同实现,其中判别器的目标是尽量区分出哪些图片是模型生成的,哪些是真实的;而生成器的目标是尽量生成逼真的图片,让判别器无法区分;
  • 模型推理:通过特定的操作步骤,使生成器生成出和待分析图片尽可能相似的图片。例如:通过梯度反传的方法,迭代更新生成器的输入变量z,直到z通过生成器生成的输出和待分析的图像之间的相似度达到最大为止;
  • 比对:通过判断待分析的图像和生成的图像之间的像素级差异(一般通过L2损失或SSIM损失计算得到),通过将差异的值和事先设定的阈值进行比较,如果差异的值小于阈值,则判定不存在异常,否则认为图像中存在异常。

https://bbs-img.huaweicloud.com/blogs/img/1622275286004033785.png

3.2.3 小结

以上两个小节简单介绍了两种典型的深度无监督异常检测算法的实现步骤。从上述步骤可以看出,无监督异常检测算法通常是通过计算重构或生成的图像与实际图像之间的差异来判断是否存在故障。这种方法虽然不需要异常样本,更适合实际场景,但是缺点也比较明显——抗噪声干扰的能力比较差。由于像素级的差异不一定是实际的故障造成的,也有可能是污渍等无关痛痒的干扰造成的,而深度无监督异常检测算法无法区分这些不同的差异,因此在实际应用中,深度无监督异常检测算法的误报通常较多。

3.3 深度半监督方法

实际中有时也能收集到少量的异常样本,为了尽可能充分地利用这些异常样本提升异常检测算法的精度,学术界提出了一类深度半监督异常检测算法,该类算法的主要步骤如下:

  • 数据收集:收集大量的图片,其中既包含正常图片,也包含异常图片;
  • 模型训练:模型结构如下图所示 [3]。训练时,模型并不知道哪些是正常图片,哪些是异常图片,因此并不是通过有监督的方式进行识别,而是将传统非深度的One-class SVM的损失迁移到了深度学习模型中;
  • 模型推理:将待分析的图片喂给模型,模型经过一系列运算后,得到一个数值作为输出,通过将该输出值与预先设置的阈值进行比较,如果输出值大于阈值则判定为异常,否则判定为正常。

https://bbs-img.huaweicloud.com/blogs/img/1622275295079069896.png

该类方法的优点是数据收集简单,并且可以端到端的进行表示学习和分类器的学习,但是往往训练过程中需要尝试大量的参数,训练耗时较长。

3.4 深度-非深度混合方法

除上述完全基于深度学习的异常检测算法外,近年来也有一些将深度学习和传统的非深度异常检测方法结合在一起的方法,如下图所示。这类方法中,深度学习模型仅作为特征提取器,而核心的识别异常的功能由传统异常检测算法实现。

https://bbs-img.huaweicloud.com/blogs/img/1622275303469010199.png

这类方法的优点是可以灵活组合不同的深度学习模型和非深度的异常检测算法,缺点是特征表示学习的过程和判定的过程割裂开了,导致判定的过程不能反作用于特征表示学习的过程,深度学习模型提取的特征不一定能够表征出异常,也不一定能够和后续的异常检测算法相匹配。

四、发展趋势

本节结合前文内容,对异常检测领域中几个有价值的研究场景进行总结,并对未来的研究趋势进行大致的预测:

  • 深度有监督方法:当前深度有监督异常检测算法的精度虽然很高,但是由于这类方法高度依赖于大量有标注的正常样本和异常样本,因此在实际中很难找到能够应用的场景。如果想要扩大适用范围,未来如何在小样本条件下,得到泛化性能强的模型,是这类方法需要突破的重点和难点。
  • 深度无监督方法:当前深度无监督异常检测算法对于数据的要求较低,适用范围也较大,但是由于这类方法抗干扰能力较差,实际中误报数量往往较多,影响了实际使用时的用户感受。因此,如何进一步建模噪声干扰或抑制噪声干扰,是这类方法未来研究的重点。
  • 群体异常检测:群体异常检测是近年来刚刚兴起的研究方向,目前还处于起步阶段,未来的研究方向、方法仍然存在很大的不确定性,但是该方向有望成为未来的热点研究方向之一。

参考文献

[1] Paul Bergmann, Sindy Loewe, Michael Fauser, David Sattlegger, Carsten Steger. Improving Unsupervised Defect Segmentation by Applying Structural Similarity To Autoencoders. arXiv 2019.

[2] Thomas Schlegl, Philipp Seeböck, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, Georg Langs. Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery. arXiv 2017.

[3] Raghavendra Chalapathy. Anomaly Detection Using One-Class Neural Networks. arXiv 2019.

 

点击关注,第一时间了解华为云新鲜技术~

博客
【重磅】华为云盘古大模型5.0,正式发布!
06-22 1274
此外,华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0技术解密和华为云全栈系统性创新发表主题演讲,详细解读华为云在AI领域的全栈创新优势。▲华为常务董事、华为云CEO张平安发布盘古大模型5.0盘古大模型5.0,在三个方面做了全新升级盘古大模型5.0包含不同参数规格的模型,以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;
博客
华为发布开发者布道师计划,3年发展超过3000名华为开发者布道师
06-21 600
为了让开发者更好地学习和使用这些技术,华为云为每个新生态的开发者免费提供一台云主机、一套开发工具和5GB的云存储空间。此外,以“创想无限” 为主题的华为开发者大赛2024赛季也宣布正式启动,未来两天,华为云将带来丰富的专题论坛、圆桌论坛,以及Codelabs、极客挑战赛、扫地僧见面会等开发者实操活动,开发者可以和华为专家面对面,共同碰撞技术创新的火花。据介绍,华为云将盘古大模型和华为在产品研发、数据治理、安全防护、业务运维等各个领域积累的数据和经验相结合,将华为云的服务重塑、升级,让华为云更智能、更高效。
博客
重磅发布!华为开发者空间:让每位开发者拥有一台云主机
06-21 912
华为云为开发者免费提供一台云主机、一套开发工具和5GB的云存储空间
博客
华为云携手根生态,全栈使能开发者技术创新
09-21 608
华为全联接2024活动期间,华为云开发者联盟举办专题论坛。邀请企业开发者分享在华为云上围绕鸿蒙、鲲鹏、昇腾等生态协同方式,实现技术创新与商业成功的案例,旨在帮助开发者了解当前根生态技术趋势和前沿科技。
博客
华为开发者空间平台能力全面增强,发布会员成长计划
09-21 369
9月21日,华为全联接大会2024在上海召开,会上,华为云全球生态部总裁康宁宣布,华为开发者空间平台能力全面增强,推出会员成长计划,助力开发者技能进阶,让根技术触手可及。
博客
拥抱全面智能化时代——徐直军在华为全联接大会2024上的主题发言
09-20 1575
2024年9月19日,华为全联接大会2024(HUAWEI CONNECT 2024)在上海拉开帷幕。华为副董事长、轮值董事长徐直军发表了“拥抱全面智能化时代”的主题演讲。
博客
支持128TB超大存储,GaussDB(for MySQL)如何轻松应对海量数据挑战
09-19 796
华为云数据库GaussDB(for MySQL)基于华为最新一代DFV存储,采用计算存储分离架构,最多支持128TB的海量存储。
博客
解决AI算法开发和存储难题,华为云DTSE助力文华云技术架构升级
09-19 1002
通过整合华为云OBS和CDN服务,U-Class智慧课堂系统成功解决了存储和网络两大关键问题。
博客
技术共生,商业共赢,华为云携手伙伴开发者共话 AI 新机遇
09-18 592
随着人工智能技术的突破和大模型技术的飞速发展,创新应用不断涌现,各行各业正被加快重塑。9月13日,由华为云计算技术有限公司主办的HCDG城市行广州站——“智享茶韵,云上话AI”生态伙伴开发者CTO技术活动在广州成功举行。
博客
探索大模型和 Multi-Agent 在运维领域的实践
09-18 935
本文从智能运维面临的挑战和痛点出发,介绍企业运维领域应用 AIGC 的实践案例,基于确定性运维的实践经验,提出以 LLM 为中心,基于多 Agent 协同的运维方案,并提出在大模型时代下,对下一代智能运维的思考。
博客
从源码角度,深度解读 MySQL 优化器的 GROUP BY 优化策略
09-18 1236
本文主要探讨了 MySQL 8.0.22 中 GROUP BY 的工作原理,并从源码角度剖析了查询优化器中的优化逻辑。
博客
华为云 HCSD 校园沙龙天津大学行:智慧碰撞,携手探索无限可能
09-14 1269
9 月 13 日下午,华为云 HCSD 秋季学期首场校园沙龙在天津大学成功举办,为高校师生带来了一场科技与教育的深度交流盛宴。
博客
openGemini 发布人才培养计划,与顶尖的数据库专家并肩成长
09-14 1278
openGemini 社区致力于为开发者提供强大的工具和资源,帮助开发者构建高性能、低成本、稳定可靠的时序数据库解决方案。
博客
技术解读 MySQL InnoDB 大对象存储格式
09-13 977
本文介绍了InnoDB大对象的存储格式,包括InnoDB会将数据行中的字段按照大对象格式进行存储的场景,InnoDB大对象溢出页存储常见存储格式,并详细介绍了InnoDB对大对象的常见组织管理方式。
博客
集成 Sermant,ServiceStage 带你实现应用上下线平滑过渡
09-13 944
为了保证应用正确上下线、流量不丢失,ServiceStage 基于 Sermant 提供了一套优雅上下线的方案,包括预热、延迟下线等,避免了请求超时、连接拒绝、流量丢失等问题的发生。
博客
技术揭秘 DWS 实时数仓解决方案,如何深度融合 Flink 简化数据链路
09-12 1322
摘要:DWS 实时数仓解决方案支持数仓模型的分层和增量加工,能够实现数据的实时入库、出库和查询,确保数据的新鲜度。
博客
【有奖征文】华为云 CodeArts,AI 重塑的软件开发生产线!
09-11 802
目前,华为云 CodeArts 已发布包括需求管理、测试计划、IDE、Snap 等 28 款工具,本次征文活动,大家可围绕 CodeArts 的其中任意一款或多款工具分享自己的使用感受、优秀实践、技术见解、开发者故事等原创内容,将有机会赢取最高价值 500 元的开发者大礼包!
博客
破解子图匹配难题,10 万奖金等你来领
09-11 906
华为持续赞助全球重大科技竞赛,开放业界前沿研究课题,旨在促进科技人才培养,持续赋能科技企业,进一步推动科技进步和产业发展。
博客
避免数据复制延迟,解读 GaussDB (for MySQL) 主备 0 延迟
09-11 894
摘要:GaussDB (for MySQL) 采用“日志即数据”的设计,相较于传统 MySQL,不再需要刷 page,所有的更新操作仅记录日志,不再需要 double write,从而实现毫秒级的主从延迟。
博客
华为云 HCSD 校园沙龙走进珠海科技学院,与高校开发者开启 AI 探索之旅
09-10 851
2024 年 9 月 5 日,华为云 HCSD 校园沙龙珠海科技学院暨 2024 华为开发者大赛宣讲活动成功举办,本次活动由华为云主办,珠海科技学院承办,面向计算机学院近 200 名在校师生,旨在与高校师生共话前沿技术,赋能培养开发者,繁荣高校开发者生态,助力院校人才培养。
写文章

热门文章

  • 100 个网络基础知识普及,看完成半个网络高手 183946
  • 想知道你未来宝宝长什么样吗? 114461
  • 周杰伦新歌《说好不哭》上线,程序员哭了......【华为云分享】 97355
  • 35岁+的大龄程序员:面对“中年危机”,这份书单或许能帮到你 85511
  • 挑战10个最难的Java面试题(附答案)【上】 82039

分类专栏

  • 大模型 1篇
  • 人工智能 203篇
  • 程序员 782篇
  • 数据库 194篇
  • 云原生 125篇
  • 开发与运维 165篇
  • 云计算 62篇
  • 云图说 69篇
  • 开源社区 135篇
  • 官方活动 318篇
  • 华为故事 84篇
  • 项目管理 27篇
  • 技术交流 3547篇
  • 物联网 42篇
  • 大数据 31篇
  • 开发者上云 910篇

最新评论

  • 华为云 HCSD 校园沙龙天津大学行:智慧碰撞,携手探索无限可能

    码踏云端: 干货,已收藏!博主的文章细节很到位,兼顾实用性和可操作性,感谢博主的分享。 也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~

  • 在PyQt中构建 Python 菜单栏、菜单和工具栏

    华为云开发者联盟: 可以点击文首原文链接咨询下原文作者哈~

  • 在PyQt中构建 Python 菜单栏、菜单和工具栏

    2301_79170653: 有整个项目源码吗

  • AI正当时,华为云专家与80+开发者共探大模型应用落地

    季风泯灭的季节: 优质好文,博主的文章细节很到位,兼顾实用性和可操作性,感谢博主的分享,期待博主持续带来更多好文

  • 小熊派开发实践丨小熊派+合宙Cat.1接入云服务器

    FIRELARVA: 去华为云搜

最新文章

  • 华为云携手根生态,全栈使能开发者技术创新
  • 华为开发者空间平台能力全面增强,发布会员成长计划
  • 拥抱全面智能化时代——徐直军在华为全联接大会2024上的主题发言
2024
09月 27篇
08月 28篇
07月 63篇
06月 74篇
05月 69篇
04月 69篇
03月 69篇
02月 48篇
01月 62篇
2023年881篇
2022年982篇
2021年1114篇
2020年927篇
2019年1024篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王武汉网站技术优化临朐网站关键词优化福田自己网站优化服务如何网站优化排名靠谱吗无锡网站优化哪个公司比较好西安网站优化公司 鹊起科技网站优化中关键词的分类网站 优化蓦然易 速达崂山区网站优化排名广东中山网站优化注意事项台安网站优化价格武汉网站优化咨询网站推广需要做优化吗网站做优化解读易速达网站备案 优化简述网站结构优化的基本方法蚌埠网站首页优化哪里有游戏行业网站优化宣传网站排名优化软件价格是多少钱邢台手机网站优化价格网站可以同时做竞价和优化吗温州泰顺网站优化怎样优化好一个网站医疗网站优化方案小吃加盟网站优化引流网站整站优化咎菲.大将军28郑州快速网站优化哪家便宜怎样优化企业网站上街区百度网站优化公司洛阳网站seo优化技术香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化