异常点检测
- 简单统计
- 3\(\alpha\)原则,假设数据服从正太分布,异常值超过3倍的标准差就视其为异常值,正负\(3\alpha\)的概率是99.7%。
- 箱型图,通过四分位距来对异常值检测,超过上四分位+1.5四分位距离或者下四分位-1.5四分位距离称为异常值。
- 基于模型的检测
- 基于近邻度的离群点检测
- 基于密度的离群点检测
- 基于聚类的离群点检测
- 专门的离群点检测方法:one class svm和solation forest等
异常值处理
- 删除含有异常值的记录
- 视为缺失值
- 平均值修正:
- 用正常的数据进行操作对其进行修正
- 对异常点采样然后进行建模,得到结果最其进行修复
- 不进行处理,前提是对异常值不敏感