hdfs - 编程之家

我的一位同事创建了一个sqoop导出作业，以将一些数据从impala表传输到sql server，而我的任务是帮助他。

我在HDFS中有3个文件夹结构。 <ul> <li>测试 <ul> <li> Test1 <ul> <li> Test2 </li> </ul> </li> </ul> </li> </ul> 所有

我们要执行以下简单命令使用ssh登录到$ hadoop_machine机器并从用户hdfs以<code>hdfs fsck /</code>的

我是新来的Apache <code>Hive</code>。我在<code>HDFS</code>中有两个文件，一个文件包含业务数据，另一个文件就

我想使用<code>iterparse</code>包中的<code>lxml.etree</code>函数来处理在HDFS文件系统中分布的巨大xml文件。 <p

我是Hadoop的新手。我已经在ubuntu上安装了hadoop，并打开了localhost视图。但是，当我尝试在浏览HDFS中创建

我使用本地docker运行ubuntu容器，并安装了 hadoop-2.6.0-cdh5.15.1 ，并将<code>8020:8020 50072:50070 </cod

仅注意到Python，Pyspark甚至Hadoop的奇怪行为。我不小心在HDFS上创建了一个名称带有反斜杠的文件夹：

<pre><code>df = rf_model.transform(df).select("id", "probability", "prediction") df = df.withColumn("prediction

我已经在一个项目中使用Dask + Pandas + PyArrow + HDFS + Parquet一段时间，该项目将推文存储在Parquet文件中，然

我想在两个集群上添加新的名称服务。我要做的是更改hdfs-site.xml中的以下内容： <pre><code>dfs.nameservice

在运行<code>hfds namenode</code> -format时，遇到了这样的异常： <blockquote> Java.net.URISYntaxException：索引25

给出以下数据集：电影ID：abgh movieName：泰坦尼克号 审稿人：约翰·史密斯 得分：3.5 </

<pre><code>df.write.mode('overwrite').option('header','false').csv('hdfs://<hostname>:8000/stage/files/exa

我正在安装一个多节点HBase群集-3个主服务器和3个区域服务器。安装后，所有节点均已启动并已连接，HB

我们正在观察一个问题，由于Spark“ Lost Executor”异常，我们看到数据重复。我知道Spark会重新提供丢失

这是我的代码，以某种方式我在第三个文件的第33和34行中遇到错误。有3个Java文件<code>MaximumTempMapper.java<

我正在使用Nutch 1.17来爬行超过百万个网站。为此，我必须执行以下操作。 <ol> <li>将爬网程序作为深

我的hadoop版本是2.7.7 我编写了一个mapreduce程序来获取哪个记录器是最新的。这样的记录 <blockquo

我正在尝试在插入数据时监视我的hbase表大小。起初我有2行，大小为12.7k；添加10行后，它增加到24.5，然