异常检测算法综述异常检测算法综述异常探测简介异常探测简介什么是异常(什么是异常(outlieroutlier)
Hawkins(1980)Hawkins(1980)给出了异常的本质性的定义:给出了异常的本质性的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制
而是产生于完全不同的机制
聚类算法对异常的定义:聚类算法对异常的定义:异常是聚类嵌于其中的背景噪声
异常是聚类嵌于其中的背景噪声
异常探测算法对异常的定义:异常探测算法对异常的定义:异常是既不属于聚类也不属于背景噪声的点
他们的行为与正常的行为有很大不同
异常是既不属于聚类也不属于背景噪声的点
他们的行为与正常的行为有很大不同
异常探测方法的分类异常探测方法的分类基于统计(基于统计(statistical-based)statistical-based)的方法的方法基于距离基于距离((distance-based)distance-based)的方法的方法基于偏差基于偏差((deviation-based)deviation-based)的方法的方法基于密度基于密度((density-based)density-based)的方法的方法高维数据的异常探测高维数据的异常探测基于统计的方法基于统计的方法在许多情况下,用户并不知道这个数据分布
而且现实数据也往往不符合任何一种理想状态的数学分布;在许多情况下,用户并不知道这个数据分布
而且现实数据也往往不符合任何一种理想状态的数学分布;即使在低维(一维或二维)时的数据分布已知,在高维情况下,估计数据点的分布即使在低维(一维或二维)时的数据分布已知,在高维情况下,估计数据点的分布是极其困难的
是极其困难的
基于距离的方法基于距离的方法KnorrKno