hdfs专题提供hdfs的最新资讯内容,帮你更好的了解hdfs。
我连接到群集以通过Python上传文件。它以大约36 MB的文件成功。但是,当我上传的文件夹超过100GB时,失
这是一个例外: <pre><code> java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSCl
我正在使用pyspark SQL函数input_file_name将输入文件名添加为数据框列。 <pre><code>User X</code></pre> 该列现
我很想将HDFS上的Google存储桶公开给服务。 有问题的服务是一个群集(SOLR),由于我没有hadoop(也不需
我正在尝试弄出hadoop命令来一次性获得多个文件夹/目录的大小。 我可以通过以下命令获取单个文
<pre><code> var fileOutputStream: FSDataOutputStream = null try if (hdfs.exists(path)) { fileOutputStream = hdfs.append(path)
我发现我的Impala群性能不稳定,通常只需要几秒钟(不到10s)即可完成查询,但是偶尔会花费40s以上的
我正在尝试在Macbook上设置hadoop 2.7。我正在遵循<a href="https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-c
我已经在Spark中安装了GCS连接器。上周,我按照<a href="https://github.com/GoogleCloudDataproc/hadoop-connectors/blob/mast
我在HDFS上有一个文件夹,每个文件夹有6k个文件,每个文件约6MB。 HDFS不喜欢很多小文件,而且它们每天
全部 我是Hadoop的新手。在docker中构建具有5个节点的Hadoop集群后,无法关闭namenode安全模式。 我尝
我看过<a href="https://stackoverflow.com/questions/22906226/how-do-i-search-for-an-item-in-an-array-in-hive">this</a>,但是它对
我在hdfs中具有以下文件夹结构。 / home / myid -main.py -test1.py -test2.py 在main.py中,我试图同时导
我无法通过Spark作业从HDFS中流式传输“旧”文件。如果我的Spark作业由于某种原因(例如演示,部署)而
小文件和HDFS出现问题。 场景:我正在使用NiFi读取来自Kafka主题的消息,这些消息确实很小。
我有一个Java上的<strong> Spark应用程序,在AWS EMR上运行</strong>。我已根据可用的纱线存储量实施了<strong> A
我在Hortonworks(2.6.4)上执行过Spark(2.4.4)结构流作业,在架构验证流作业将这些消息存储到HBASE和HIVE中
我在HDP平台(2.6.5.225-4)上运行了Storm拓扑。 在我的群集上启用了Kerberos。 此拓扑以KafkaSpout开头,
我正在Windows上工作,我想从Twitter获取推文。我为此使用Apache Flume和Hadoop。 Flume会获取推文,但不会将其
我有一个泊坞窗文件,该文件可以在容器中运行我想要的所有内容。在这种情况下,我想运行一个spark代