Hadoop - 编程之家

hive>如果不存在，请创建模式inconv_seql; 失败：执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1。 Met

我是hive的新手，并且已将derby db作为其驱动程序进行安装。但是，当我尝试输入配置单元外壳时，它表

最近，我们将Spark Jobs迁移到了Kerberized集群。我们的一些Spark作业从尚未进行Kerberized的另一个集群中提取

我正在尝试将s3中的数据（在日期（休息）的日期字符串上进行了分区）移动到另一个位置，在该位置将

我正在尝试使用Sqoop命令从Oracle数据库中导入特定模式中的所有表： <pre><code>PostgreSQL 11.0</code></pre>

我正在尝试将文件从一个文件夹复制到已安装文件夹中的另一个文件夹。我看到以下错误。请注意，这

Hive DBMS；两个表-A和B <strong>表A </strong> <pre><code>prnt_id sub_id ac_nm cost units unknown

在我的Mac中，我独立安装了Hadoop 3.3.0 我有2个Python脚本mapper.py和reducer.py。我可以成功运行1步

在我的Windows机器上，我尝试使用spark 2.4.6，而没有使用hadoop- spark-2.4.6-bin-and-hadoop-scala-2.12.tgz 设置

我对Dremio非常陌生，我正在尝试将Dremio（独立版本）与现有的Hive 2.3.3（在Hadoop 2.7之上）设置集成。 <

错误 <blockquote> 远程导出失败：导出大小超过可用内存的20％。请使用服务器本地导出 </blockquote>

我需要打开一个压缩文件，里面有一个镶木地板文件，里面有一些数据。我在尝试打印/读取文件中的内

我处于这种情况，我需要运行Hive选择查询并将查询结果导出到csv文件中。我正在使用<strong> SelectHi

如果在目录上调用状态检查， <a href="https://github.com/apache/hadoop/blob/10716040a859b7127a4e1781be21c3b0b59dd456/hadoop-to

我在Yarn群集中启用了FairScheduling，具有以下队列配置： <pre><code> <queue name="queue_1"> <

我的代码如下： <pre><code>object DataTypeValidation extends Logging { def main(args: Array[String]) { val spark = Spar

我有一个csv数据，例如： <pre><code>Process()</code></pre> 如何使用sqoop将此文件数据导入到配置单元？

SQL的新手，我正在使用Hadoop SQL，将产品编号<code>b.prod_num</code>连同由<code>b.B_id</code>，<code>b.A_id</code>和<c

我想使用pyspark在Hadoop集群上使用delta lake。除了下面以外，我还没有找到任何使用三角洲湖泊的安装指南

在cmd中运行一些命令时遇到了一个小问题，我试图以此运行hadoop <ol> <li> hdfs namenode -format </li> <li>％HA