如何解决用非连续时间索引建模时间序列?
我有一个数据框,其中包含多年记录的气候数据功能,其中包括记录日期。
我想对该系列进行建模,该系列具有日期功能,可以预测我怀疑受到气候数据影响的每周结果,但记录每周从每年的1月1日开始,直到12月24日结束。意味着年份的录音有不同的工作日。
statsmodels.tsa
想要录制的频率,但是除非我每年独立建模,或者只是将录制工作日同步的年份分组,否则我将错过更大的前景,并且会丢失大量的数据以进行训练。
是否可以将这种时间模式引入statsmodels
或其他时间序列建模库中?
编辑,添加了一些代码以重现一些数据。 statsmodels.org慷慨提供的功能
def simulate_seasonal_term(periodicity,total_cycles,noise_std=1.,harmonics=None):
duration = periodicity * total_cycles
assert duration == int(duration)
duration = int(duration)
harmonics = harmonics if harmonics else int(np.floor(periodicity / 2))
lambda_p = 2 * np.pi / float(periodicity)
gamma_jt = noise_std * np.random.randn((harmonics))
gamma_star_jt = noise_std * np.random.randn((harmonics))
total_timesteps = 100 * duration # Pad for burn in
series = np.zeros(total_timesteps)
for t in range(total_timesteps):
gamma_jtp1 = np.zeros_like(gamma_jt)
gamma_star_jtp1 = np.zeros_like(gamma_star_jt)
for j in range(1,harmonics + 1):
cos_j = np.cos(lambda_p * j)
sin_j = np.sin(lambda_p * j)
gamma_jtp1[j - 1] = (gamma_jt[j - 1] * cos_j
+ gamma_star_jt[j - 1] * sin_j
+ noise_std * np.random.randn())
gamma_star_jtp1[j - 1] = (- gamma_jt[j - 1] * sin_j
+ gamma_star_jt[j - 1] * cos_j
+ noise_std * np.random.randn())
series[t] = np.sum(gamma_jtp1)
gamma_jt = gamma_jtp1
gamma_star_jt = gamma_star_jtp1
wanted_series = series[-duration:] # Discard burn in
return wanted_series
dt_idx = pd.date_range('2020-01-01',periods=10).append(pd.date_range('2020-02-01',periods=10))
feat1 = simulate_seasonal_term(10,2,4,3)
feat2 = simulate_seasonal_term(10,4)
t = np.random.normal(loc=14,scale = 4,size=20)
target = (t-np.sin(-t))//1
df = pd.DataFrame(columns=['feat1','feat2','target'],index=dt_idx)
df['feat1'],df['feat2'],df['target'] = feat1,feat2,target
[![tsdata] [1]] [1]
我们可以看到该数据在其功能范围内具有季节性,并且记录在给定时间段内是一致的。
谢谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。