如何解决数据块:dbfs:/ vs文件:/之间的区别
我试图了解Databricks存储文件的方式,但我不确定 dbfs:/ 与 file:/ 之间有什么区别(请参见下图) )
根据我从here得出的结论,文件:/似乎是通过curl / wget下载的外部文件被下载到以下文件夹路径中的区域:
%fs ls "file:/databricks/driver"
但是 file:/ 到底是什么,为什么存在,又与 dbfs:/ 有何不同?
为便于记录,我使用的是Databricks社区免费版。
解决方法
Databricks社区版托管在Amazon Web Services上。
在databricks社区版中创建集群时,在后台创建了一个虚拟机(aws ec2实例),该虚拟机在后端充当驱动程序节点以通过笔记本计算机运行程序。
集群管理服务。该服务将使用已为您设置的Spark节点启动Amazon EC2实例VM。社区版可免费使用15GB内存群集,普通版可按节点每小时收费。
%fs ls "file:/"
返回在aws云后端运行的虚拟机aws ec2实例中可用的文件夹。
%fs ls
返回Databricks文件系统(DBFS)是安装在Databricks工作区中的分布式文件系统,可在Databricks群集上使用。 DBFS是可扩展对象存储(即AWS S3存储)之上的抽象。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。