数据预处理

魔法师LQ

数据清洗

数据缺失

  • 原因
    • Equipment malfunction
    • Data not provide
    • Not Application
  • 类型
    • 完全随机缺失
    • 有条件的随机缺失
    • 非随机缺失
  • 处理
    • 忽略/删除
    • 填充:1.根据领域知识;2.填平均值,中位数等;3.高斯分布;

离群点(outlier)

Outlier $\neq$ Anomaly

LOF(Local Outlier Factor,局部异常因子方法)

LOF方法

其中,

  • $d(A, B)$表示A, B间的距离(例如欧氏距离);

  • $distance_k(B)$表示点B到周围点(不包括B自身)中第k远的距离,即图示右上角虚线圆圈的半径,称为k-distance;

  • $distance_k(A, B)$表示A到B的距离和B的k-distance中的较大者,称为可达距离;
  • $N_k(A)$表示A的k-distance邻域,即A周边k个点组成的集合,N即Neighbor,$\vert N_k(A) \vert$是A的k-distance领域点的个数,$\vert N_k(A) \vert \geq k$;
  • $ldr_k(A)$为A的local reachability density(局部可达密度),是指$N_k(A)$到A的平均可达距离的倒数,密度越高,越可能是属于同一个簇;密度越低(平均可达距离越远),越可能是离群点;
  • $LOF_k(A)$为A的local outlier factor(局部离群因子),表示$N_k(A)$的$ldr$与点A的$ldr$之比的平均值,约大于1越可能是离群点。

阅读