Hadoop - 编程之家

基本上，我有用户ID和单击日期，我要检查用户是否在7天内和90天内的任何时间单击了。这就是我所拥有

我试图通过sqoop从mysql导入表到hadoop文件系统。但是，<code>i = 4</code>会启动工作，并被困在0％的映射上。

我有一个分区视图，我正在尝试使用配置单元CLI从视图定义中删除现有分区。但是，当我尝试删除分区

我正在使用<code>hadoop 3.3</code>和<code>oozie 5.2.0</code>。我遇到以下错误： <pre><code>Exception in thread &

我能够执行将数据从spooldir传输到Hbase的操作，但是我的数据采用Json格式，并且我希望它们位于单独的列

我必须将大约80TB的数据从Hadoop移动到Azure。我从Azure获得了10个数据磁盘，可以一次连接到一个网关节点

我正在尝试弄出hadoop命令来一次性获得多个文件夹/目录的大小。我可以通过以下命令获取单个文

<pre><code> var fileOutputStream: FSDataOutputStream = null try if (hdfs.exists(path)) { fileOutputStream = hdfs.append(path)

考虑一个简单的Java文件，该文件创建一个<code>BufferedInputStream</code>来将本地文件<code>1400-8.txt</code>复制到

我正在尝试使用Sqoop将数据从SQL Server导入HDFS。在边缘节点上运行命令时，我低于解析错误。 <pre><code>

我目前正在尝试使用<code>Hue</code>连接到<code>Hive</code>来查询我的<code>hadoop</code>集群中的数据。我已经设

当前，在本地Hadoop环境中，我们正在使用具有事务属性的配置单元表。但是，随着我们转向AWS，我们还

我目前正在编写一个框架，以将<strong>蜂巢表转移到aws。</strong>我们无法一shot而就。我们需要一段时间

<pre><code>I have inherited a CDH 4.7 cluster and last week someone decided it would be a good idea to do kernel updates and then just reboo

我尝试学习Spark，但是在这里我发现了一个异常（不允许设置spark.sql.warehouse.dir，应为跨会话使用而静态

我已经在Spark中安装了GCS连接器。上周，我按照<a href="https://github.com/GoogleCloudDataproc/hadoop-connectors/blob/mast

我在HDFS上有一个文件夹，每个文件夹有6k个文件，每个文件约6MB。 HDFS不喜欢很多小文件，而且它们每天

我希望并行运行多个映射器和化简器。根据公式获取并发任务数 <pre><code>min (yarn.nodemanager.resource.memor

我已经安装了hadoop 3版本的GCS连接器，并将以下配置添加到core-site.xml中，如<a href="https://github.com/GoogleClou