如何解决如何在S3中的Pyspark中从带有子文件夹的文件夹创建带有CSV文件的新数据框
嗨,我是Pyspark和S3的新手。我手头有问题。我有一个文件夹,其中包含子文件夹和文件,以及子文件夹中的文件(所有CSV),我需要创建一个新的数据框或csv文件,在其中我可以获取文件内容并创建为单个文件。以后需要将其读取到表中
任何人都可以帮助我。我在python中有代码,但不确定如何使用pyspark和S3
解决方法
尝试使用此option。
recursiveFileLookup –递归扫描目录中的文件。使用此选项将禁用分区发现。
df = spark.read.option("header","true").option("recursiveFileLookup","true").csv("s3://path/to/root/")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。