如何解决可互换地在spark和pandas数据帧上实现pythonic统计功能
我在spark数据框中有非常大的数据集,这些数据集分布在各个节点上。
我可以使用火花库mean
进行简单的统计,例如stdev
,skewness
,kurtosis
,pyspark.sql.functions
等。
如果我想使用Jarque-Bera(JB)或Shapiro-Wilk(SW)等高级统计测试,我将使用scipy
之类的python库,因为标准的apache pyspark库没有它们。但是为了做到这一点,我必须将spark数据帧转换为pandas,这意味着像这样将数据强制进入主节点:
import scipy.stats as stats
pandas_df=spark_df.toPandas()
JBtest=stats.jarque_bera(pandas_df)
SWtest=stats.shapiro(pandas_df)
我有多个功能,每个功能ID对应一个我要在其上执行测试统计信息的数据集。
我的问题是: 当数据仍然分布在节点之间时,是否可以将这些pythonic函数应用于spark数据框,还是需要在spark中创建自己的JB / SW测试统计函数?
谢谢您的宝贵见解
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。