特征处理

"特征处理"

Posted by zwt on September 5, 2022

特征处理

1
2
3
4
1.覆盖率判断
2.采集成本分析
3.特征完整度:有的单一特征是没有意义的。例如视频的清晰度必须搭配网络以及手机的情况来组合判断
4.特征有效性:线上线下特征的一致性

什么是好的特征

1
2
3
有区分性:避免无用特征
特征之间相互独立:不存在冗余特征
简单易于理解

缺失值处理

连续特征

分桶

可以有效的防止异常数据或者是数据的跨度大而导致的学习难度大,也在一定程度上引入了非线性。 等距分桶:如果数字跨越数量级,以10为幂分组,如果呈现指数增长,取log分桶。对数变换是处理具有重尾分布的正数的有力工具 等频分桶:以分位数为分界点

非线性变换

取对数、平方根等:引入非线性

归一化:

Min-Max \(\frac{X_{i}-X_{\min }}{X_{\max }-X_{\min }}\) z-score: \(x^*=\frac{x-\mu}{\sigma}\) 其中$\mu,\sigma$分别标识均值和方差 Scale to [-1, 1]:$x_{n o r m}=\frac{x-\operatorname{mean}(x)}{\max (x)-\min (x)}$ Log_based: \(\begin{aligned} & x_{\log }=\log (1+x) \\ & x_{\log -\text { norm }}=\frac{x_{\log }-\operatorname{mean}\left(x_{\log }\right)}{\operatorname{std}\left(x_{\log }\right)} \end{aligned}\) 归一化本质:是一种线性变换,相当于对数据的压缩和平移。 优缺点:

1
2
3
4
5
最大值最小值:
1.数值不稳定,导致归一化结果不稳定,实际使用的时候用经验值替代最大值最小值
2.适用于数据比较集中的场景
z-score:
1.要求原始数据接近高斯分布

归一化和标准化的本质都是一种线性变换: 在数据确定的情况下,令$\alpha = X_{max} - X_{min}$,常数$\beta = X_{min}$则归一化的形式 可以简化为$\frac{X_{i} - \beta}{\alpha}$,和标准化的形式类似。再进行转化: \(\frac{X_i-\beta}{\alpha}=\frac{X_i}{\alpha}-\frac{\beta}{\alpha}=\frac{X_i}{\alpha}-c\) 上面的公式就是对X按照比例$\alpha$压缩,再进行c平移,所以不管是归一化还是标准化的本质都是一种线性变换。

==Gauss Pank==

数据平滑

ctr平滑

直接使用曝光/点击计算出来的结果,再真实场景中进行使用会有问题:对于新的内容曝光数不足,那么就会存在新内容很难曝光的问题,导致ctr计算不准确。 可以通过贝叶斯平滑来进行数据的校准,计算公式如下: \(\begin{aligned} \hat{R} &=\frac{C+\alpha}{I+\alpha+\beta} \\ \alpha &=\left(\frac{\bar{R}(1-\bar{R})}{S^{2}}-1\right) \bar{R} \\ \beta &=\left(\frac{\bar{R}(1-\bar{R})}{S^{2}}-1\right)(1-\bar{R}) \end{aligned}\) 其中含义分别是均值和方差。通过上式计算的结果:新item在开始的时候就会得到一个接近平均水平的初始值,然后在不断获得曝光的时候不断的进行ctr的调整从而接近真实的水平。

参考

1.归一化作用 2.贝叶斯平滑 3.归一化作用 4.分桶 5.工业级推荐系统特征处理 6.特征处理 7.特征构造方法