异常值处理

"机器学习"

Posted by zwt on June 2, 2020

异常点检测

  1. 简单统计
  2. 3\(\alpha\)原则,假设数据服从正太分布,异常值超过3倍的标准差就视其为异常值,正负\(3\alpha\)的概率是99.7%。
  3. 箱型图,通过四分位距来对异常值检测,超过上四分位+1.5四分位距离或者下四分位-1.5四分位距离称为异常值。
  4. 基于模型的检测
  5. 基于近邻度的离群点检测
  6. 基于密度的离群点检测
  7. 基于聚类的离群点检测
  8. 专门的离群点检测方法:one class svm和solation forest等

异常值处理

  1. 删除含有异常值的记录
  2. 视为缺失值
  3. 平均值修正:
    • 用正常的数据进行操作对其进行修正
    • 对异常点采样然后进行建模,得到结果最其进行修复
  4. 不进行处理,前提是对异常值不敏感