如何解决处理不同的日期格式的python?
我正在使用pd.to_datetime(df['Date'],format="%d/%m/%Y")
方法来尝试将该列转换为datetime列。
现在,日期的格式为日/月/年,但格式不同,例如:
5/8/2005
13/08/05
4/2/2006
我收到一个错误:time data '13/08/05' does not match format '%d/%m/%Y' (match)
,当我尝试使用pd.to_datetime()
时,当我删除格式时,大熊猫错误地转换了日期。
我该如何处理?
解决方法
在pd.to_datetime
中使用dayfirst
关键字:
>>> pd.to_datetime(df['Date'],dayfirst=True)
0 2005-08-05
1 2005-08-13
2 2006-02-04
dtype: datetime64[ns]
,
尝试一下
pd.to_datetime(df['Date'],dayfirst=True)
,
我曾经遇到过类似的问题,在某些情况下,某些情况是“月初” 和“天先” 的组合。我使用以下代码解决了这个问题。
df=pd.DataFrame({"A":["5/8/2005","13/08/05","4/2/2006"]})
df.loc[:,"IsMonth"]=df.loc[:,"A"].apply(lambda x: int(x.split("/")[0])>12)
df_1=df[df.loc[:,"IsMonth"]==True]
df_2=df[~df.index.isin(df_1.index)]
df_1["A"]=pd.to_datetime(df_1["A"])
df_2["A"]=pd.to_datetime(df_2["A"])
df=pd.concat([df_1,df_2])
df.drop("IsMonth",inplace=True,axis=1)
请注意,pd.to_datetime()
的默认行为是使用dayfirst=False
您不能直接处理。您可以看到details on (我不知道{ {1}},但我认为datetime
formatting,并注意到有一个%y
和%Y
伪指令,分别表示2位数字和4位数字的年份。dayfirst
用例对其他人还是有帮助的。)
我建议创建一个小函数,然后在列上使用该函数。像这样:
apply
然后您可以call this function on the column of interest;像这样:
>>> def convertYear(val):
... (day,month,year) = val.split('/')
... if len(year) == 2:
... if int(year) > 40:
... year = '19' + year
... else:
... year = '20' + year
... newvals = [day,year]
... return '/'.join(newvals)
... return val
现在您终于可以完成:
df.Date.apply(convertYear,axis='index') # don't use axis=0,not readability-friendly
这里是龙
被警告:即使我的函数变得很聪明,它假设您有欧洲日期(DD / MM / YYYY),我还是基于pd.to_datetime(df['Date'],format="%d/%m/%Y"
的假设。在美国,是(MM / DD / YYYY)。
由于这种烦恼,请适当使用datetimes should be internationalized,它实际上只是东亚风格。 (也许是整个亚洲??)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。