如何解决从Kaggle数据集中获取zip文件的名称
当我在Kaggle中下载数据集时,它是通过以下方式下载的:
subprocess.run(["kaggle","datasets","download","-d",DATA_URL,"-p",SAVE_PATH])
当我尝试再次下载它时,我收到提示消息,提示我已经下载了数据集,在那里我可以看到zip的名称:
ecommerce-dataset.zip: Skipping,found more recently modified local copy (use --force to force download)
如何找出数据集的名称或.zip
的名称?
我调查了Kaggle API,但没有发现任何对我有帮助的东西。
解决方法
我认为 Kaggle API python CLI 不可能做到这一点,但是,如果 .zip 文件夹是在 API 中创建的,那么应该有命名逻辑。
但是,我认为将数据集下载到一个空文件夹中会更容易,然后检查该文件夹中的 .zip 文件并使用它。
这可以通过 pathlib
完成:
from pathlib import Path
import subprocess
# Create Path object and create "new_folder" in current working directory (Path.cwd())
path = Path(Path.cwd(),"new_folder")
path.mkdir()
# Download
subprocess.run(["kaggle","datasets","download","-d",DATA_URL,"-p",path])
# Get .zip files in the "new_folder"
zip_files = path.glob(".zip")
dataset_zip_name = [f.name for f in zip_files][0]
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。