什么是异常检测?

异常是指数据集中的意外更改或与预期模式的偏差。异常检测用于提醒异常行为,因为异常显示正在发生与预期不同的情况。

异常检测图

异常情况不一定非好即坏,但公司应该知道模式有了任何改变,以评估是否需要采取行动。

企业在日常运营中会生成数百万个数据点,但其中许多有价值的信息却未被利用而遗忘。这就是为什么异常检测在商业领域越来越突出的原因:优化运营和简化流程,实现更可预测的未来。

异常和异常值有什么区别?

许多企业用户可以互换使用 “异常” 和 “异常值” 这两个术语,但两者之间存在关键的区别。异常与异常值相似,但不完全相同。

假设所有数据都是由一组流程生成的,则异常值是在给定数据集中出现概率较低的点。它们就是观测点,与正态总体中的其他观测值相距甚远。但是,异常值不一定代表异常行为或因流程不同而发生的行为。异常值由同一流程生成,但出现的概率较低。

相反,异常是由不同流程生成的模式。这些不同的流程可以提醒企业某些事情发生了变化,可能需要采取进一步的措施,例如设备故障或疲劳。

有时需要判断和主题专业知识来确定特定数据点代表哪个类别。

异常检测的价值是什么?

每天,企业都会产生大量数据。如果利用得当,这些数据可以帮助企业更快地做出更好的决策。一种方法是通过异常检测。检测异常情况可以防止一个小问题发展成一个普遍存在且耗时的问题。通过使用最新的机器学习方法,公司可以跟踪趋势,发现机会和威胁,并通过异常检测获得竞争优势。

异常检测电子书
异常检测初学者指南
通过学习异常检测的基础知识,为您的企业提供竞争优势。

异常检测的工作原理

有许多技术功能和解决方案可用于实时检测异常,甚至在某些情况下预测异常。

视觉发现

数据或业务分析师构建数据可视化以发现意外行为,通常需要事先的业务知识和创造性思维,才能通过正确的数据可视化找到答案。高级可视化(例如从主组件、TSNE 和 UMAP 生成的可视化效果)可以让高维度数据通过低维度图进行访问。

监督学习

监督式学习使用具有特定行业业务知识的人员将一组数据点标记为正常或异常。然后,分析师使用这些标记的数据来构建机器学习模型,以预测未标记的新数据的异常情况。

无监督学习

未标记的数据用于构建无监督的机器学习模型,以预测新数据。由于模型是为拟合正态数据而量身定制的,因此出现少量异常数据点也会很显眼。

时序技术

异常是通过时间序列分析来检测的,这些模型可捕获时间序列数据中的趋势、季节性和水平。当新数据与模型的差异太大时,会显示出异常或模型失效。

自动编码器和机器学习

最新的机器学习技术和自动编码器可以实时检测和响应异常。神经网络可以预测来自交易和传感器数据馈送的异常。

集群

分析师可以尝试将每个数据点归类为许多预定义或发现的集群之一;未能归入已知集群的情况可被视为异常。

异常检测目前是如何使用的?

几乎在每个行业中,都有许多重要的异常检测业务用例。一些最常见的示例是保险、金融服务、医疗保健和制造业:

  • 金融犯罪
  • 设备传感器
  • 医疗保健欺诈
  • 制造缺陷

打击金融犯罪

在金融领域,每分钟要处理价值数万亿美元的交易。实时识别可疑交易可以为组织提供竞争优势。为了识别异常交易,客户、供应商和领先的金融公司越来越多地采用大数据分析(包括机器学习技术)来检测生成的海量数据中的异常情况。

此外,领先的金融公司可以通过异常检测来控制成本,通过消除误报调查和减少欺诈损失来节省成本。

监控设备传感器

现在,许多类型的设备、车辆和机器都有嵌入式传感器。例如,您的智能手机有许多传感器,包括环境光和背光传感器、加速度计、数字罗盘、陀螺仪、距离、NFC、GPS 和指纹传感器。监测传感器输出对于检测和防止故障与中断至关重要。

数据驱动的制造商可以通过互联的物联网 (IoT) 设备实时跟踪其所有设备、车辆和机器。他们可以使用异常检测解决方案监控所有输出,以防止造成严重损失的故障和中断。此外,他们可以通过采用自动编码器等无监督学习算法来识别可能表明即将出现问题的异常数据模式。

医疗保健索赔欺诈

保险欺诈在医疗保健行业很常见,向欺诈者支付的金额达数十亿美元。对于保险公司来说,识别欺诈性索赔至关重要,这样才能确保不向欺诈账户支付任何款项。在过去的几年中,许多公司在大数据分析方面投入了大量资金,以构建受监督、无监督和半监督的模型来检测保险欺诈。

借助大数据分析和异常检测功能,医疗保健和保险提供商可以构建受监督、无监督和半监督的模型,以降低每次提交索赔发生医疗保健欺诈的可能性。

制造缺陷

一些公司使用自动编码器模型持续监控制造部件上的传感器数据。当模型获得新数据时,技术人员可在缺陷(异常)发生时迅速检测并加以解决。

手动检查缺陷和异常会浪费时间,并增加制造商的成本,这就是为什么许多领先的制造商开始使用自动编码器。公司可以使用自动编码器模型,利用制造部件上的传感器数据实时监控和检测任何异常事件。

更多使用案例

除了这些最常见的用例之外,许多其他行业也使用异常检测:

  • 军事监视:图像识别
  • 网络安全:入侵检测
  • 安全系统:故障检测
  • 黑客防护:异常网络流量检测
  • 天气:预报热浪或寒流
  • 核磁共振成像:发现健忘症或恶性肿瘤
  • 航天器传感器:故障部件识别
异常检测指南
白皮书:异常检测终极指南
使用此综合指南可以更好地了解如何应用视觉发现、监督机器学习 (ML) 模型以及自动编码器等无监督机器学习技术。

异常检测的未来会怎样?

如今的数据在不断增长,企业收集的信息也多过以往,根据预测,未来的数据增长会更多。有了如此丰富的数据,企业必须能够跟踪模式,更重要的是,能够检测异常情况,以避免设备故障、欺诈和缺陷等重大业务故障。

检测数据模式中的异常可以帮助企业发现切实可行的洞见,在数字时代变得更有效率和更具竞争力。借助数据科学软件,组织可以使用机器学习模型来指定预期行为、监控新数据并发现意外行为以获得更好的业务成效。

异常检测未来会如何发展?随着机器学习和人工智能的使用日益增加,检测机器或传感器异常将不再是唯一的主要用例。专家预测,异常检测将继续在视频监控、医疗诊断等领域占据重要地位。