如何解决Python Pandas:支持25小时的日期时间索引
我想使用日期/时间作为熊猫中数据框的索引。
但是,夏令时没有在数据库中正确处理,因此夏令时结束的日的日期/时间值为25小时,并表示为:
2019102700
2019102701
...
2019102724
我正在使用以下代码将这些值转换为DateTime
对象,并将其用作熊猫数据框的索引:
df.index = pd.to_datetime(df["date_time"],format="%Y%m%d%H")
但是,这会导致错误:
ValueError: unconverted data remains: 4
大概是因为to_datetime
函数不希望小时为24
。同样,夏令时开始的日期只有23小时。
我想到的一个解决方案是将日期存储为字符串,但这似乎既不优雅也不高效。使用to_datetime
时是否可以解决解决夏时制的问题?
解决方法
我不确定这是否是最优雅或最有效的解决方案,但我会:
df.loc[df.date_time.str[-2:]=='25','date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"],format="%Y%m%d%H")
,
如果您知道时区,这是一种计算UTC时间戳的方法。仅分析日期部分,将数据“所属”的本地时区本地化,然后将其转换为UTC。现在您可以解析小时部分并将其添加为时间增量-例如
import pandas as pd
df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724','2019102800','2019102801','2019102802']})
df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2],format='%Y%m%d')
.dt.tz_localize('Europe/Berlin')
.dt.tz_convert('UTC'))
df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')
# df['date_time']
# 0 2019-10-27 20:00:00+00:00
# 1 2019-10-27 21:00:00+00:00
# 2 2019-10-27 22:00:00+00:00
# 3 2019-10-27 23:00:00+00:00
# 4 2019-10-28 00:00:00+00:00
# 5 2019-10-28 01:00:00+00:00
# Name: date_time,dtype: datetime64[ns,UTC]
,
选择第一个和最后一个索引,将它们转换为tz_aware datetime,然后您可以生成一个处理25小时制的date_range。并将 date_range 分配给您的 df 索引:
start = pd.to_datetime(df.index[0]).tz_localize("Europe/Berlin")
end = pd.to_datetime(df.index[-1]).tz_localize("Europe/Berlin")
index_ = pd.date_range(start,end,freq="15min")
df = df.set_index(index_)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。