如何把分类变量连续出来

如题所述

离散变量一般情况下是类别变量。一般情况下,类别变量和连续变量是需要统一的。

比如今天的降雨量这种连续型变量,我们可以将其转换为下雨或者不下雨两种状态,如果今天的降雨量不为0,我们可以将其定义为下雨,反之,降雨量为0,当然就是不下雨了。

但是,很显然,把这种连续型变量统一到类别型变量的做法,肯定是会丢失很多信息的,所以通常的做法就是编码类别型变量。

编码类别型变量,最直接的做法就是标签编码,简单来说就是给每个类别分配一个序号。

最常见的肯定就是独热编码了,简单。但是如果这个类别的值特别多的话,就不太适合用独热编码了,因为维度会很大,这种情况下可以使用均值编码,使用平均数编码类别变量。当然均值编码也有缺点,容易过拟合和数据泄露,可以搭配正则化使用。

最后在记录一下之前自己学到的方法
温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

大家正在搜

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网