如何解决通过使用pyspark中的行号减少rdd
我是python的新手。 我正在尝试根据行数使用pyspark减少2d rdd,并使用一行中观察值的平均值进行映射。 rdd在第一列中包含一行样本的数量,在随后的列中包含样本的数量。
sample_mean_rdd = sample_rdd.map(lambda a:samples_in_row).reduceByKey(lambda z:nrow)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。