hdfs - 编程之家

<pre><code>I am running simplest Driver alone long running job to reproduce this error Hadoop Version 2.7.3.2.6.5.0-292 Spark-core v

我正在尝试使用Strips方法计算单词对数。这是我使用的代码。当我尝试在HDFS中实现时，我得到了。所

如何打开PySpark上的损坏实木复合地板文件夹（仅从Jupyter Notebook访问）时，如何验证报告和抛出异常的校

我正在尝试在托管表的顶部创建一个外部表，以避免表锁定。当前流将插入到托管表中，并在托管表的

当在hdfs中写入任何内容时，例如从hdfs中的文件中读取日期 Hadoop fs -cat hdfs：//localhost/dfshome/TestFile.txt 取

我需要传输几个大文件，但发生错误： <pre><code>java.lang.OutOfMemoryError: GC overhead limit exceeded </code></pre> <

我正在尝试将文件夹从本地系统移动到包含％20的hdfs。我不能更改文件夹名称，因为它是一列的值，并

我的CSV文件位于jupyter服务器的目录中。每当我尝试使用<code>spark dataframe</code>将其作为<code>spark.read.csv</co

我刚刚开始大数据之旅，我创建了一个主，10个从属，客户端类型的体系结构，我想找到客户端从中接收

有没有办法通过Scala / Java做hdfs dfs -setfacl？通过hdfs shell这样做很慢。例如我想重写一下： Seq（“ h

我目前正在四台计算机上设置Hadoop集群。我有一个namenode和4个datanode在运行，它们通过docker swarm overlay网

HDFS用户可以在权限<code>745</code>上设置为<code>/user/username</code>的情况下彼此创建/删除文件夹。我

我正在按照此处（<a href="https://kontext.tech/column/hadoop/309/apache-hive-311-installation-on-windows-10-using-windows-subsyste

我在AWS EMR上每月有一个数据管道，该管道过去运行良好。在之前的运行中，我们收到的数据负载比平时

如何以编程方式检查何时使用 <pre><code>spark.read.csv(path) </code></pre> 或 <pre><code>spark.read.parquet(path)

我正在尝试执行以下代码片段以将文件保存在HDFS中。 <pre><code>Configuration conf = new Configuration(); String ta

我想使用Spark读取hdfs中的磁盘映像文件。现在，我使用此命令来解析火花中的大量磁盘映像文件。 <p

我正在尝试将HDFS文件从<code>UTF-8</code>转换为<code>ISO-8859-1</code>。我写了一个小的Java程序： <pre c

我正在尝试使用Java应用程序将火花作业提交到Hadoop HDP 2.6.3环境（使用kerberos）上的纱线群集。我在所有

我在Ubuntu机器上安装了本地单节点Hadoop实例（hadoop 3.2.1），以试验基本的hdfs功能，但是当我尝试使用hdfs