如何解决使用pyspark将值聚合为动态间隔
我有两个形状如下的spark数据框:
df1 =
| time |Value|
| 2020-02-22 04:57:36.843 | 1.4 |
| 2020-02-22 04:57:36.850 | 1.7 |
| 2020-02-22 04:57:37.133 | 1.2 |
| 2020-02-22 04:57:37.461 | 1.1 |
| 2020-02-22 04:57:37.894 | 1.9 |
| 2020-02-22 04:57:38.111 | 2.0 |
| 2020-02-22 04:57:39.043 | 2.1 |
| 2020-02-22 04:57:39.543 | 1.3 |
df2 =
| start time | end time |id |
| 2020-02-22 04:57:36.203 | 2020-02-22 04:57:38.570 | 1 |
| 2020-02-22 04:57:38.570 | 2020-02-22 04:57:41.173 | 2 |
| 2020-02-22 04:57:41.173 | 2020-02-22 04:57:45.461 | 3 |
| 2020-02-22 04:57:45.461 | 2020-02-22 04:57:49.094 | 4 |
| 2020-02-22 04:57:49.094 | 2020-02-22 04:57:55.221 | 5 |
| 2020-02-22 04:57:55.221 | 2020-02-22 04:57:60.221 | 6 |
我想基于df2中的时间步长构建周期,并通过3个等距间隔汇总(例如平均值)df1中的值。例如,在2020-02-22 04:57:36.203和2020-02-22 04:57:38.570之间的ID为1的循环中,我想在df2中创建3个新列,并使用df 1中行的汇总值时间戳属于该周期中的一个间隔(周期持续时间在变化)。我想要的输出:
| start time | end time |id | interval1|interval2 | interval3|
|2020-02-22 04:57:36.203|2020-02-22 04:57:38.570 |1 | 1.55 | 1.15 | 1.95 |
|2020-02-22 04:57:38.570|2020-02-22 04:57:41.173 |2 | ...
如何获得此输出?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。