如何解决如何去除高度相关的特征?
高度相关的特征给出相同的信息,或者它们是重复的特征。
correlation_matrix = df_dumm_nopresence_nonull.corr()
for i in range(len(correlation_matrix.columns)):
for j in range(i):
if abs(correlation_matrix.iloc[i,j]) > 0.8:
colname = correlation_matrix.columns[i]
correlated_features.add(colname)
print("HIGHLY CORRELATED FEATURES ARE",correlated_features)
这是显示高度相关特征的代码。我觉得这里它显示了值高于 0.8 的任何功能。但是我们需要显示并因此只删除重复的,对吗?示例:如果 A、B 列的相关值为 0.9。我们应该只删除 A/B 对吗?而不是两者...
上面的代码能做到吗?还是同时显示 A 和 B?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。