bigdata - 编程之家

我有一些大量数据流进入不同的网络套接字（传感器数据 - 每月数 TB），为此我想<str

在具有超过 70 列的配置单元表上按日期执行分区时，我遇到此错误： 错误：状态：失败错

我正在尝试编写一个 UDF 来丰富具有地理位置信息的 IP 列。我想用于扩充的数据以 IP 范围到国家/地区的

我想将 CSV 文件或 XLS 文件转换为 EDI 格式。我曾尝试使用 BOTS，但 BOTS 不支持 python>=3.0。是否有任

最近加入了一家没有机器学习工具的公司。主要任务之一是制作一个基本的推荐系统。有大数据，它存

我是大数据领域的新手，我想问一个关于代理键的问题。考虑到分布式数据系统，使用哈希 md5 创建代理

我的问题： 我有一个包含数千个单列 csv 的文件夹，我已经构建了一个自定义函数来处理。

我正在使用 <code>mmlspark lgbm</code> 模型解决回归问题，但遇到了奇怪的事情。如果使用示例中的所有正常

这是我第一次使用 Big Matrix、bigmemory 和 biganalytics。我用以下代码创建了一个大矩阵： <pre><code>B

比如有一个表的ddl模式： <pre><code>Rc</code></pre> 如果给定DDL模式，是否有一些开源工具可以生成sql并

我在 sqoop 中看到要导入表，我们有导入所有表或只是将表名导入 hive 但我有 10

我正在尝试制作一个程序，该程序解压缩然后解析 xml.zip 中的 xml 文件。添加zip4j的依赖，这是我的pom.xm

我是 Java 和 hadoop 的新手。我正在关注本教程 (<a href="https://developpaper.com/simple-java-hadoop-mapreduce-program-calcu

当我尝试使用 Talend 大数据在 hdfs（cloudera 虚拟框）中创建文件时出现错误。我已经尝试使用 Cloudera Manag

我目前正在使用此命令在 Stata 上工作 <pre><code>melogit ioc i.payer i.year, || idorgsite: || id:, covariance(exchangeabl

我是 NiFi 的新用户。我必须开发一个读取 json 的数据流，动态提取一些属性（基于收到的参数）并替换

我正在将 Spark 作业提交到 EMR 集群以处理文件，然后将其写入为将由 Presto 读取的 ORC 文件。分析

我对 sqoop 关于性能的文档存在矛盾，这在我的大学引起了无休止的讨论。给定下表： <pre><code>+

如何从现有的配置单元表创建多个列。示例数据如下所示。 <a href="https://i.stack.imgur.com/kkBCg.png" rel="

对 Bash 非常陌生，所以请不要讨厌。我想学习如何计算 csv 文件中一列数据条目中唯一值的数量，如果数