如何解决Amazon Deequ的Pyspark版本
我正在研究AWS Glue,并将pyspark API用于我的ETL。 我相信,如果需要使用Amazon Deequ,则需要切换到Scala。但是我仍然希望contine使用Pyspark API。有出路吗? 如果是,我在AWS Glue中需要遵循哪些步骤?
谢谢
解决方法
有一个Deequ的Python包装器,名为PyDeequ,它可以工作,尽管我自己还没有使用过。
如果您想使用Python,我建议您看一下实现与Deequ非常相似的功能的Great Expectations library,包括对PySpark的支持。
,感谢您的建议 GreatExpectations是一个很棒的库,但是它是C依赖包。不幸的是,AWS Glue不支持PySpark的C依赖库
https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html
恐怕我可能无法使用GreatExpectations
任何其他PySpark库建议都将不胜感激
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。