1. 数据清洗
数据清洗主要包括数据采样和样本过滤。
1. 样本采样
- 分类问题: 需要注意样本均衡问题,合适选择正负比例。
- 回归问题: 需要采集数据。
- 对于采样得到的样本,根据需要,需要设定样本权重。
- 当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率。
2. 样本过滤
结合业务情况进行数据的过滤
异常点检测:
- 偏差检测,例如聚类,最近邻等。
- 基于统计的异常点检测算法
例如极差,四分位数间距,均差,标准差等,这种方法适合于挖掘单变量的数值型数据。全距(Range),又称极差,是用来表示统计资料中的变异量数(measures of variation) ,其最大值与最小值之间的差距;四分位距通常是用来构建箱形图,以及对概率分布的简要图表概述。 - 基于距离的异常点检测算法,主要通过距离方法来检测异常点,将数据集中与大多数点之间距离大于某个阈值的点视为异常点,主要使用的距离度量方法有绝对距离 ( 曼哈顿距离 ) 、欧氏距离和马氏距离等方法。
- 基于密度的异常点检测算法,考察当前点周围密度,可以发现局部异常点,例如LOF算法