bigdata - 编程之家

我有 52.6 GB 大小的 .txt 文件文件夹。 .txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F

目前，我们每天产生大约 100G 的视频数据。如何在我们的大数据集群 HDFS 上实时收集这些海量数据？

我正在运行 apache <strong>MiNiFi c++</strong>，流程从 <code>GetFile</code> 处理器开始。输入目录包含一些大

模式演化在合并时的工作深度是多少？在以下情况下合并时自动模式演变不起作用。 <pre><code>im

使用 StackOverflow 公共数据集我在一个完整的表上运行我的查询，它花了 1 分 29 秒（见附图） <pre><code>

你能帮我下面的查询吗。假设有表员工和列 A 、 B 和日期列。我必须将数据从表employee 加载

根据我的项目要求，我提出了一个复杂的逻辑，其中包含如下“一小部分”： <pre><code> 'regexp_ext

我想对一个大表（500 多万行）执行 MySQL 查询。特定列有数千个可能的元素值，我想返回该列只有 100 个

我在 <code>AWS S3</code> 有一个数据湖。数据格式为<code>Parquet</code>。每日工作量约为 70G。我想在该数据之

伙计们！我需要放入一个txt文件格式，一个来自Hive环境的数据。数据需要是非结构化的，在同一

我正在尝试对消息数据运行分析操作。作为输入，我有一个包含大约 100 万条记录的文本文件作为原始文

我在网上搜寻了以下问题的 VBA 解决方案，但无济于事。我的文本文件范围为 3-5 百万行（这因文本文件

大家好，希望你们一切顺利！我有一些 csv 文件想把它们放在 hdfs 中，如果一个文件已经存在，它应该

我有订单和交易数据，需要在交易发生后计算订单的剩余交易量。在下面的数据中，我们有订单量，当 s

我在从 Hive 到 HBase 创建外部表时遇到了这个问题。我在 JDK 11.0 中使用 Hadoop 3.2.2、Hive 2.3.8 和 HBase 2.3.4

我有一个博客网站。我希望我的成员能够关注主题并相互关注。 <pre><code>Topics Table id - title - content - t

我遇到了标题中的错误，我无法理解如何完成此 Map 函数以创建以下 Reduce 函数。有什么线索吗？（用于

我正在使用 Python CQLengine 构建一个 Apache Cassandra 表，我想根据 <code>id</code>、<code>phone</code> 或 <code>email</c

我有下表 <div class="s-table-container"> <table class="s-table"> <头> <tr> <th>student_id</th> <th>主题</th> </tr> </thead> <t

我有一个保存操作日志的业务场景。每个业务 id 有多个操作日志。为了解决这个问题。我在Hbase中保存