bigdata专题提供bigdata的最新资讯内容,帮你更好的了解bigdata。
我有一些<strong>大量数据流进入不同的网络套接字</strong>(传感器数据 - 每月数 TB),为此 我想<str
在具有超过 70 列的配置单元表上按日期执行分区时,我遇到此错误: <strong>错误:状态:失败 错
我正在尝试编写一个 UDF 来丰富具有地理位置信息的 IP 列。我想用于扩充的数据以 IP 范围到国家/地区的
我想将 CSV 文件或 XLS 文件转换为 EDI 格式。我曾尝试使用 BOTS,但 BOTS 不支持 python>=3.0。 是否有任
最近加入了一家没有机器学习工具的公司。主要任务之一是制作一个基本的推荐系统。有大数据,它存
我是大数据领域的新手,我想问一个关于代理键的问题。考虑到分布式数据系统,使用哈希 md5 创建代理
<strong>我的问题:</strong> 我有一个包含数千个单列 csv 的文件夹,我已经构建了一个自定义函数来处理。
我正在使用 <code>mmlspark lgbm</code> 模型解决回归问题,但遇到了奇怪的事情。如果使用示例中的所有正常
这是我第一次使用 Big Matrix、bigmemory 和 biganalytics。 我用以下代码创建了一个大矩阵: <pre><code>B
比如有一个表的ddl模式: <pre><code>Rc</code></pre> 如果给定DDL模式,是否有一些开源工具可以生成sql并
我在 <strong>sqoop</strong> 中看到要导入表,我们有导入所有表或只是将表名导入 <strong>hive</strong> 但我有 10
我正在尝试制作一个程序,该程序解压缩然后解析 xml.zip 中的 xml 文件。 添加zip4j的依赖,这是我的pom.xm
我是 Java 和 hadoop 的新手。我正在关注本教程 (<a href="https://developpaper.com/simple-java-hadoop-mapreduce-program-calcu
当我尝试使用 Talend 大数据在 hdfs(cloudera 虚拟框)中创建文件时出现错误。 我已经尝试使用 Cloudera Manag
我目前正在使用此命令在 Stata 上工作 <pre><code>melogit ioc i.payer i.year, || idorgsite: || id:, covariance(exchangeabl
我是 NiFi 的新用户。 我必须开发一个读取 json 的数据流,动态提取一些属性(基于收到的参数)并替换
我正在将 Spark 作业提交到 EMR 集群以处理文件,然后将其写入为将由 Presto 读取的 ORC 文件。 分析
我对 sqoop 关于性能的文档存在矛盾,这在我的大学引起了无休止的讨论。 给定下表: <pre><code>+
如何从现有的配置单元表创建多个列。示例数据如下所示。 <a href="https://i.stack.imgur.com/kkBCg.png" rel="
对 Bash 非常陌生,所以请不要讨厌。我想学习如何计算 csv 文件中一列数据条目中唯一值的数量,如果数