bigdata - 编程之家

我正在尝试使用包含 713488 个数据点的系列拟合 SARIMAX() 模型。不幸的是，当我尝试拟合时，模型

我刚刚开始深入研究大数据世界。我面临着“维度诅咒”，我经常听说数据点，但我找不到后者的定义

我一直在尝试使用包含 713488 个数据点的系列拟合 SARIMAX() 模型。加载需要很长时间，即使超过几

这只是标题中的简单问题。我的数据行是 1,650,461，但 excel 或 CVS 只能导出到 1,048,576。有更好的格式吗

我目前正在将 IOT 数据流式传输到在 Docker 容器（托管在 AWS 中）中运行的 MongoDB。我每天都会收到几千个

我试图通过从一个主题读取数据来建立 kafka 和 spark 之间的链接，并尝试将该主题的内容打印到 DataFrame

能否请您帮忙解决以下问题。我有三个输入表（表1，表2，表3） <a href="https://i.stack.imgur.com/iK

我正在尝试将一个大（~10GB）的 JSON 文件读入 python。考虑到文件大小，检查文件很困难，而且从之前读

在 HBase <a href="http://hbase.apache.org/book.html#hadoop" rel="nofollow noreferrer">documentation</a> 注意到： <块引用>

我有一个表，它在下表中具有例如 3 个属性，使用 hive/sql 我有一个用例，它包含 50 多个属性，需要我对

我正在将现有服务迁移到 Docker。我们有一个大数据 Spark 应用程序，我们使用 oozie 作为工作流管理器。

大家好，我遇到了一个问题，我正在尝试使用 pyspark 处理 hive 数据集，我有 3 个数据库，但我只是获得

作为 GCP 迁移的一部分，我需要将简单的 spark 语句迁移到 Bigquery。一个表包含 2 列，需要根据 spark 语句

能否请您指导以下查询。我需要将下面的字符串列转换为日期。屏幕截图中提供了输入和预期输

我正在尝试使用 Sqoop 导入数据，以下是我的 sqoop 导入命令。由于此错误，我无法将数据导入我的 Hadoop

我必须将大图像的子样本存储为大小为 (20,20,5) 的 <code>.npy</code> 数组。为了在训练分类模型时均匀采样

嗨，我需要 1 个查询才能获得前 10 个 <code>country</code>，其中 <code>import</code> 药物在 2019 年至 2020 年之间

我已经想到了以下解决方案，但我确定我是否遗漏了什么和/或有更好的方法来做到这一点：假设

我正在尝试创建架构，但出现错误： <块引用> bin/pinot-admin.sh AddTable -tableConfigFile $PDATA_HOME table-config

我目前在 pyspark 上遇到以下问题。我需要在行上创建一个滚动窗口，在另一行的值上应用一个函数。这