如何解决成对相关性和与Python中的依赖项相关性最低的删除变量
我目前正在尝试清理数据集,并希望删除彼此相关的变量。我已经看到了一些以前共享的代码,但是似乎没有任何关于删除变量的标准。我正在尝试获取它,以便删除与相关性相关性较低的变量。
我的数据集的格式为:
名称|依存| x1 | x2 | x3 | xn |
到目前为止,我已经尝试过了,但是似乎没有用。关于如何更改我的代码的任何建议将不胜感激!
import pandas as pd
import numpy as np
dataset = pd.read_csv('tetrahymena_padel_withDep.csv')
dataf1 = dataset.drop(['Name'],axis = 1)
dataf2 = dataset.drop(['Name','Dependent'],axis = 1)
corrWithDep = dataf1.corr().iloc[0]
corrWithVar = dataf2.corr()
col_corr = set()
for i in range(len(corrWithVar.columns)):
for j in range(i):
if (corrWithVar.iloc[i,j] >= 0.9) and (corrWithVar.columns[j] not in col_corr):
if (corrWithDep.iloc[i] >= corrWithDep.iloc[j]):
colname = corrWithVar.columns[j]
col_corr.add(colname)
else:
colname = corrWithVar.columns[i]
col_corr.add(colname)
if colname in dataset.columns:
del dataset[colname]
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。