hdfs - 编程之家

我连接到群集以通过Python上传文件。它以大约36 MB的文件成功。但是，当我上传的文件夹超过100GB时，失

这是一个例外： <pre><code> java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSCl

我正在使用pyspark SQL函数input_file_name将输入文件名添加为数据框列。 <pre><code>User X</code></pre> 该列现

我很想将HDFS上的Google存储桶公开给服务。有问题的服务是一个群集（SOLR），由于我没有hadoop（也不需

我正在尝试弄出hadoop命令来一次性获得多个文件夹/目录的大小。我可以通过以下命令获取单个文

<pre><code> var fileOutputStream: FSDataOutputStream = null try if (hdfs.exists(path)) { fileOutputStream = hdfs.append(path)

我发现我的Impala群性能不稳定，通常只需要几秒钟（不到10s）即可完成查询，但是偶尔会花费40s以上的

我正在尝试在Macbook上设置hadoop 2.7。我正在遵循<a href="https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-c

我已经在Spark中安装了GCS连接器。上周，我按照<a href="https://github.com/GoogleCloudDataproc/hadoop-connectors/blob/mast

我在HDFS上有一个文件夹，每个文件夹有6k个文件，每个文件约6MB。 HDFS不喜欢很多小文件，而且它们每天

全部我是Hadoop的新手。在docker中构建具有5个节点的Hadoop集群后，无法关闭namenode安全模式。我尝

我看过<a href="https://stackoverflow.com/questions/22906226/how-do-i-search-for-an-item-in-an-array-in-hive">this</a>，但是它对

我在hdfs中具有以下文件夹结构。 / home / myid -main.py -test1.py -test2.py 在main.py中，我试图同时导

我无法通过Spark作业从HDFS中流式传输“旧”文件。如果我的Spark作业由于某种原因（例如演示，部署）而

小文件和HDFS出现问题。场景：我正在使用NiFi读取来自Kafka主题的消息，这些消息确实很小。

我有一个Java上的<strong> Spark应用程序，在AWS EMR上运行</strong>。我已根据可用的纱线存储量实施了<strong> A

我在Hortonworks（2.6.4）上执行过Spark（2.4.4）结构流作业，在架构验证流作业将这些消息存储到HBASE和HIVE中

我在HDP平台（2.6.5.225-4）上运行了Storm拓扑。在我的群集上启用了Kerberos。此拓扑以KafkaSpout开头，

我正在Windows上工作，我想从Twitter获取推文。我为此使用Apache Flume和Hadoop。 Flume会获取推文，但不会将其

我有一个泊坞窗文件，该文件可以在容器中运行我想要的所有内容。在这种情况下，我想运行一个spark代