如何解决时间序列的分割熊猫数据框
我目前有一个CSV,其中包含很多行(大约200k),每行上都有很多列。我基本上想进行时间序列培训和测试数据拆分。我的数据集中有很多独特的项目,我希望每个项目的前80%(按时间顺序)都在训练数据中。为此,我编写了以下代码
import pandas as pd
df = pd.read_csv('Data.csv')
df['Date'] = pd.to_datetime(df['Date'])
test = pd.DataFrame()
train = pd.DataFrame()
itemids = df.itemid.unique()
for i in itemids:
df2 = df.loc[df['itemid'] == i]
df2 = df2.sort_values(by='Date',ascending=True)
trainvals = df2[:int(len(df2)*0.8)]
testvals = df2[int(len(df2)*0.8):]
train.append(trainvals)
test.append(testvals)
似乎trainvals和testvals的填充正确,但是没有将它们添加到测试和training中。我加错了吗?
解决方法
您的直接问题不是在for循环内重新分配:
train = train.append(trainvals)
test = test.append(testvals)
但是,在循环中增长大量对象(如数据帧)变得内存效率低下。相反,可以考虑在groupby
上进行迭代,以通过列表理解构建包含测试和训练拆分的字典列表。然后调用pd.concat
将每个集合绑定在一起。使用定义的方法来组织处理。
def split_dfs(df):
df = df.sort_values(by='Date')
trainvals = df[:int(len(df)*0.8)]
testvals = df[int(len(df)*0.8):]
return {'train': trainvals,'test': testvals}
dfs = [split_dfs(df) for g,df in df.groupby['itemid']]
train_df = pd.concat([x['train'] for x in dfs])
test_df = pd.concat(x['test'] for x in dfs])
,
您可以使用def sum(L):
for x in range(len(L) //2):
a = L[x]
b = L[-x + 1]
避免循环。
a = L[x]
b = L[-x + 1]
请注意,如果df.groupby.quantile
不是唯一的,则可能会发生意外的行为。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。