异常检测概述

作者&投稿:政之 (若有异议请与网页底部的电邮联系)

异常检测(Outlier Detection) ,顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。

识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。

点异常 :指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;

上下文异常 :又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;

群体异常 :指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,例如社交网络中虚假账号形成的集合作为群体异常子集,但子集中的个体节点可能与真实账号一样正常。

有监督 :训练集的正例和反例均有标签

无监督 :训练集无标签

半监督 :在训练集中只有单一类别(正常实例)的实例,没有异常实例参与训练

统计学方法对数据的正常性做出假定。 它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。 统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。

即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。

假定输入数据集为 ,数据集中的样本服从正态分布,即 ,我们可以根据样本求出参数 和 。

典型的如PCA方法,Principle Component Analysis是主成分分析,简称PCA。它的应用场景是对数据集进行降维。降维后的数据能够最大程度地保留原始数据的特征(以数据协方差为衡量标准)。
PCA的原理是通过构造一个新的特征空间,把原数据映射到这个新的低维空间里。PCA可以提高数据的计算性能,并且缓解"高维灾难"。

  这类算法适用于数据点的聚集程度高、离群点较少的情况。同时,因为相似度算法通常需要对每一个数据分别进行相应计算,所以这类算法通常计算量大,不太适用于数据量大、维度高的数据。
  基于相似度的检测方法大致可以分为三类:

集成是提高数据挖掘算法精度的常用方法。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好,一些算法在其他子集上表现很好,然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性,子空间与不同的点集相关,而集成方法使用基检测器来探索不同维度的子集,将这些基学习器集合起来。

常用的集成方法有Feature bagging,孤立森林等。

**feature bagging **:

与bagging法类似,只是对象是feature。

孤立森林

孤立森林假设我们用一个随机超平面来切割数据空间,切一次可以生成两个子空间。然后我们继续用随机超平面来切割每个子空间并循环,直到每个子空间只有一个数据点为止。直观上来讲,那些具有高密度的簇需要被切很多次才会将其分离,而那些低密度的点很快就被单独分配到一个子空间了。孤立森林认为这些很快被孤立的点就是异常点。

用四个样本做简单直观的理解,d是最早被孤立出来的,所以d最有可能是异常。

在有标签的情况下,可以使用树模型(gbdt,xgboost等)进行分类,缺点是异常检测场景下数据标签是不均衡的,但是利用机器学习算法的好处是可以构造不同特征。

Scikit-learn:

Scikit-learn 是一个Python语言的开源机器学习库。它具有各种分类,回归和聚类算法。也包含了一些异常检测算法,例如LOF和孤立森林。

官网: https://scikit-learn.org/stable/

PyOD:

1、学习pyod库基本操作

参考资料:



~

常天使检测有必要吗
答:有必要。根据查询相关资料信息:常天使是一种常规体检方式,通过对血液中的生化指标进行检测,可以更加全面、精准地了解身体的健康状况。常天使是江苏宝卫士生物科技有限公司出品的一款产品,用于体外定性测定人体粪便中的血红蛋白。

大数据科学家需要掌握的几种异常值检测方法
答:本文主要将异常值检测方法分为两大类:一类是基于统计的异常值检测,另一类是基于模型的异常值检测。基于统计的方法 基于模型的方法 1、基于统计的异常值检测方法 常见的基于统计的异常值检测方法有以下2种,一种是基于3σ法则,一种是基于箱体图。3σ法则 箱体图 3σ法则是指在样本服从正态分布时,一般可认为小于...

设备诊断常用检查测量技术有哪些
答:因此,首先应当把现有的检查测量技术整理成体系,同时也必须开发新的诊断测量技术。设备诊断常用测量技术如下:(1).应力参数的测量技术:应力参数的测量目的是为了掌握故障和劣化原因,并改进设备、消除不正常的应力,延长设备寿命、定量地掌握设备的各种应力。在定量地检测书应力后,利用诊断技术不仅能检测出...

肺常心安检测准确吗
答:不准确。肺常心安是一种用于检测肺部和心脏健康的仪器,通过采集人体呼吸和心跳信号,通过算法分析来判断肺部和心脏健康状况。但是,肺常心安的准确性存在很大的局限性。首先,这种检测仪器只是基于生理信号的一种辅助检查方法,其检测结果会受到多种因素的影响,测量时的体位、呼吸方式、心理状态等,因素导致...

常见五种重金属的监测原理都有什么?如汞、六价铬的监测原理??_百度知...
答:作为一个环境监测工作者 我真的没有听说过“常见五种重金属”这种说法 我大胆臆测 您指的是铅、汞、铬、镉、镍或者锰?也许和您所想的不一致 不过没关系 金属元素的常规分析检测除了六价铬和汞有更独特便捷的方法外 其它基本上都一致 所以我就将金属常用检测方法的原理分为三类分别向你介绍 1 汞...

简述气相色谱仪常见的检测器有哪些,各自有何特点?
答:FID、ECD、FPD、NPD等FID和FPD检测器一般接上就可以直接使用了,而ECD和NPD接上之前需要稳定2小时以上才能开始用于分析!

常用无损探伤方法有哪几种
答:无损探伤检测包含了许多种已可有效应用的方法,最常用的 NDT 方法是:射线照相检测、超声检测、涡流检测、磁粉检测、渗透检测、目视检测、泄漏检测、声发射检测、射线透视检测等。由于各种 NDT 方法,都各有其适用范围和局限性,因此新的 NDT 方法一直在不断地被开发和应用。通常,只要符合 NDT 的基本...

医学常用哪些化学检验
答:医学常用化学检验叫生化检验,常用的有:肝功肾功的比浊法,免疫的大部分项目用的是化学发光法,尿液检测,血常规和尿常规这些都是 都是生物和化学方法相结合的。

深度伪造与检测技术概述(二)
答:姓名:张钰  学号:21011210154  学院:通信工程学院 【嵌牛导读】简述深度学习换脸检测技术,对论文DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection中关于人脸操作检测部分内容的总结 【嵌牛鼻子】Deepfake Detection 【嵌牛提问】Deepfake检测技术分类 【...

射线检测的概述
答:作为五大常规无损检测方法之一的射线检测(Radiology),在工业上有着非常广泛的应用。ΔI/I=-((μ-μ’)ΔT)/(1+n)这个公式就是射线检测基本原理的关系式,ΔI/I称为物体对比度,(I是射线强度,ΔI是射线强度增量,μ是物质线衰减系数,μ’是缺陷线衰减系数,ΔT是射线照射方向上的厚度差,...