如何解决在对数据集进行预处理时,机器学习中的Standard Scaler和MinMax Scaler之间的主要区别是什么?
在预处理数据集时,无论是使用min max缩放器还是标准缩放器,我总是很困惑,所以基本上我的问题是何时使用标准缩放器以及在什么情况下可以使用MinMax缩放器?
解决方法
MinMaxScaler
说(feature_range =(0,1))将在[0,1]范围内按比例转换列中的每个值。将其用作变换要素的第一个缩放器选择,因为它将保留数据集的形状(不失真)。
StandardScaler()
会将列中的每个值转换为均值0和标准偏差1左右的范围,即,每个值将通过减去均值并除以标准差进行归一化。如果您知道数据分发是正常的,请使用StandardScaler。
如果存在异常值,请使用RobustScaler()
。另外,您也可以删除异常值,并使用以上两个定标器之一(选择取决于数据是否正态分布)
其他说明:如果在train_test_split之前使用了定标器,则会发生数据泄漏。在train_test_split之后使用定标器
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。