Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

特征工程-数据预处理

1. 数据清洗

数据清洗主要包括数据采样样本过滤

1. 样本采样

  • 分类问题: 需要注意样本均衡问题,合适选择正负比例。
  • 回归问题: 需要采集数据。
  • 对于采样得到的样本,根据需要,需要设定样本权重。
  • 当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率。

2. 样本过滤

  • 结合业务情况进行数据的过滤

  • 异常点检测

    • 偏差检测,例如聚类,最近邻等。
    • 基于统计的异常点检测算法
      例如极差,四分位数间距,均差,标准差等,这种方法适合于挖掘单变量的数值型数据。全距(Range),又称极差,是用来表示统计资料中的变异量数(measures of variation) ,其最大值与最小值之间的差距;四分位距通常是用来构建箱形图,以及对概率分布的简要图表概述。
    • 基于距离的异常点检测算法,主要通过距离方法来检测异常点,将数据集中与大多数点之间距离大于某个阈值的点视为异常点,主要使用的距离度量方法有绝对距离 ( 曼哈顿距离 ) 、欧氏距离和马氏距离等方法。
    • 基于密度的异常点检测算法,考察当前点周围密度,可以发现局部异常点,例如LOF算法

欢迎关注我的其它发布渠道