Earyant的技术博客

欢迎来到Earyant的技术博客，在这里我将与你分享新技术。

特征工程-数据预处理

发表于 2022-03-12 阅读次数：
本文字数： 465 阅读时长 ≈ 1 分钟

1. 数据清洗
- 1. 样本采样
- 2. 样本过滤

1. 数据清洗

数据清洗主要包括数据采样和样本过滤。

1. 样本采样

分类问题：需要注意样本均衡问题，合适选择正负比例。
回归问题：需要采集数据。
对于采样得到的样本，根据需要，需要设定样本权重。
当模型不能使用全部的数据来训练时，需要对数据进行采样，设定一定的采样率。

2. 样本过滤

结合业务情况进行数据的过滤
异常点检测：
- 偏差检测，例如聚类，最近邻等。
- 基于统计的异常点检测算法
  例如极差，四分位数间距，均差，标准差等，这种方法适合于挖掘单变量的数值型数据。全距(Range)，又称极差，是用来表示统计资料中的变异量数(measures of variation) ，其最大值与最小值之间的差距；四分位距通常是用来构建箱形图，以及对概率分布的简要图表概述。
- 基于距离的异常点检测算法，主要通过距离方法来检测异常点，将数据集中与大多数点之间距离大于某个阈值的点视为异常点，主要使用的距离度量方法有绝对距离 ( 曼哈顿距离 ) 、欧氏距离和马氏距离等方法。
- 基于密度的异常点检测算法，考察当前点周围密度，可以发现局部异常点，例如LOF算法

欢迎关注我的其它发布渠道