Hadoop - 编程之家

我在Hortonworks HDP沙盒上收到以下错误：到<a href="http://sandbox-hdp.hortonworks.com:50070" rel="nofollow noreferrer

看来，在本地客户端模式下的docker pyspark shell中，它可以正常工作并且能够连接到配置单元。但是，发出

我间歇性地收到此错误消息，并且不一致。因此，hadoop命令在我的spark工作中失败了。检查了<code>

嗨，我是Spark的新手，我想知道如何进行字符串操作，以便Column1-Column2获得column3。注意：我的数据

我有10台使用akka流进行数据提取的提取机。我有一个由50个节点组成的Hadoop集群，并使用Spark Streaming运

我是hadoop的新手。 我正在尝试从Java调用mover cmd <code>Runtime.getRuntime().exec("hdfs mover -p /user/testus

我正在使用PySpark和Hive开发Spark集群。我在SO上看到了很多有关“无法覆盖正在读取的表” Hive错误

<a href="http://s3.amazonaws.com/dev.hortonworks.com/ambari/centos6/2.x/BUILDS/2.4.0.0-1225/repodata/repomd.xml" rel="nofollow noreferre

我正在本地模式下运行hadoop作业，即作业在linux计算机的单个JVM中运行。当我尝试使用JobClient杀死正在运

我有2张桌子： <pre><code>db1.main_table (32 GB) db2.lookup_table (2.5 KB) </code></pre> 查找表只有一列名为id的列

我已经使用<code>scan</code>将hbase表数据传递给了映射器。有没有办法在<code>MultipleInput()</code> 中将虚拟

在Linux中使用命令“ <code>file <filename></code>”显示文件是否已压缩。对于驻留在HDFS文件系统中的文件

嗨，大家好，我在kerberos环境中运行Spark（2.4.4），我编写了代码以通过Spark查询Hive Table。我也在spark-

大约一周前，我能够正确运行hadoop，但是今天我的hadoop命令无法正常工作，并引发错误 java.net.

在hdfs的租约恢复过程中，在出现软限制后，另一个客户端获得了租约。HDFS仅在硬限制到期后关闭文件并

我注意到这种行为，即使我的块复制设置设置为3，在从客户端上载的过程中，有时由namenode分配2个块，

我已经安装了hive和hadoop <a href="https://phoenixnap.com/kb/install-hadoop-ubuntu" rel="nofollow noreferrer">https://phoe

我正在尝试在终端中启动新的Hive会话，但出现以下错误。我正在使用Java 1.8。 <pre><code>Exception in thread

我一直在寻找可以帮助我同时打开两个数据集的API。我的应用程序中有一个数据资产，我必须在其中添

我一直在尝试使用sbt构建 <pre><code>resolvers += "Hortonworks" at "https://repo.hortonworks.com/content/groups/p