如何解决当我在套索回归中拆分训练和测试集时,R ^ 2为负
我尝试使用原油价格运行套索回归,当我分成火车和测试集时,我无法洗牌训练和测试集
2020年的原油价格,由于COVID-19而非常奇怪
但是我想知道如何解决火车和测试仪上的错误,我需要在不打乱的情况下使用它
# Import Libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#%matplotlib inline
plt.style.use('ggplot')
import warnings; warnings.simplefilter('ignore')
# Read data from CSV to Pandas
df = pd.read_csv('https://www.kaggle.com/yothinpukongnin/crude-oil-price?select=DB_2.csv
',index_col=0)
#df = df.iloc[ 0:108,: ]
X = df.drop(['Dubai','EU_RUB'],axis=1)
y = df['Dubai']
# Split Train and Test Set
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.20,random_state=7,shuffle = False)
#Lasso Regression
from sklearn.linear_model import Lasso
reg = Lasso(alpha=0.5)
reg.fit(X_train,y_train)
#R^esults from traditional Lasso
from sklearn.metrics import mean_squared_error
print('Lasso Regression: R^2 score on training set',reg.score(X_train,y_train)*100)
print('Lasso Regression: R^2 score on test set',reg.score(X_test,y_test)*100)
测试集的R平方= -356
解决方法
如果我理解您的问题,那么您是在问负的R ^ 2分数。
但是,从严格意义上讲这不是错误-R^2 score can be arbitrarily negative。这只是意味着您的模型表现不佳,实际上它的表现甚至比总是预测平均值的模型还要差(该模型的R ^ 2得分等于0)。
尽管生成的模型很差,但是您的代码在技术上可以正常工作。另外,R ^ 2分数为负的问题并不直接与将数据集拆分为训练部分和测试部分有关。
如何精确地创建更好的模型太复杂了,这里需要回答一个问题。只是一些提示(以便您知道要查找的主题):
- 您的数据集非常小,具有许多功能,因此您的模型很可能过度拟合(也得到了良好的训练R ^ 2评分的支持)-了解如何通过过度拟合和欠拟合以及偏倚与方差交易来诊断和缓解问题-off,
- 这是一个时序问题,应这样处理-阅读有关时序数据的机器学习预测的细节,
- 您应该在拟合任何模型之前对数据进行预处理(这可能包括但不限于归一化/标准化,特征编码,特征生成,降维,添加外部数据,特定于时间序列的预处理……)
- 您应该尝试更多不同的模型和网格搜索,以获取最佳的超参数。
当然,还不止如此,如果您是机器学习的新手,那么最好阅读入门书籍或学习课程,以便获得基本概述和进一步学习的起点。 。例如this is an excelent course。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。