如何解决在pyspark中将mm-dd-yy,hr-mm-ss转换为yy-mm-dd时间戳
我在pyspark数据框中有一个由时间(数据类型:()组成的字段,格式为mm-dd-yy,hr-mm-ss。看起来像:
+--------------------+
|timestamp |
+--------------------
| 04-04-2019,18:34:38|
| 04-05-2019,14:02:56|
| 04-06-2019,01:06:08|
| 04-06-2019,17:20:25|
| 04-12-2019,23:33:46|
如何将该字段转换为yyyy-mm-dd之类的字符串,例如“ 2019-04-04”?
解决方法
使用格式为to_date()
MM-dd-yyyy
功能
Example:
df.show()
#+-------------------+
#| timestamp|
#+-------------------+
#|04-04-2019,18:34:38|
#+-------------------+
from pyspark.sql.functions import *
df.withColumn("date",to_date(col("timestamp"),"MM-dd-yyyy")).show()
#+-------------------+----------+
#| timestamp| date|
#+-------------------+----------+
#|04-04-2019,18:34:38|2019-04-04|
#+-------------------+----------+
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。