如何解决如何使用 Dataproc 中的 Jupyter notebook 获取 GCS Bucket 中的文件列表?
我最近开始在我的项目中使用 GCP,但在 Dataproc 集群中使用 Jupyter 笔记本中的存储桶时遇到了困难。目前,我有一个包含一堆文件的存储桶,以及一个带有 Jupyter 笔记本的 Dataproc 集群。我想要做的是查看存储桶中的所有文件并从中提取数据以创建数据框。
我可以使用以下代码一次访问一个文件:data = spark.read.csv('gs://BUCKET_NAME/PATH/FILENAME.csv')
,但是有数百个文件,我无法为每个文件编写一行代码。通常,我会这样做:
import os
for filename in os.listdir(directory):
...
但这在这里似乎不起作用。所以,我想知道,如何在 Dataproc 集群中使用 Jupyter notebook 迭代存储桶中的文件?
非常感谢您的帮助!
解决方法
您可以使用以下命令列出存储桶中的元素:
from google.cloud import storage
client = storage.Client()
BUCKET_NAME = 'your_bucket_name'
bucket = client.get_bucket(BUCKET_NAME)
elements = bucket.list_blobs()
files=[a.name for a in elements]
如果您的存储桶中没有文件夹,名为 files 的列表将包含文件的名称。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。