bigdata专题提供bigdata的最新资讯内容,帮你更好的了解bigdata。
我正在尝试使用包含 713488 个数据点的系列拟合 SARIMAX() 模型。 不幸的是,当我尝试拟合时,模型
我刚刚开始深入研究大数据世界。我面临着“维度诅咒”,我经常听说数据点,但我找不到后者的定义
我一直在尝试使用包含 713488 个数据点的系列拟合 SARIMAX() 模型。 加载需要很长时间,即使超过几
这只是标题中的简单问题。 我的数据行是 1,650,461,但 excel 或 CVS 只能导出到 1,048,576。 有更好的格式吗
我目前正在将 IOT 数据流式传输到在 Docker 容器(托管在 AWS 中)中运行的 MongoDB。我每天都会收到几千个
我试图通过从一个主题读取数据来建立 kafka 和 spark 之间的链接,并尝试将该主题的内容打印到 DataFrame
能否请您帮忙解决以下问题。 我有三个输入表(表1,表2,表3) <a href="https://i.stack.imgur.com/iK
我正在尝试将一个大(~10GB)的 JSON 文件读入 python。考虑到文件大小,检查文件很困难,而且从之前读
在 HBase <a href="http://hbase.apache.org/book.html#hadoop" rel="nofollow noreferrer">documentation</a> 注意到: <块引用>
我有一个表,它在下表中具有例如 3 个属性,使用 hive/sql 我有一个用例,它包含 50 多个属性,需要我对
我正在将现有服务迁移到 Docker。我们有一个大数据 Spark 应用程序,我们使用 oozie 作为工作流管理器。
大家好,我遇到了一个问题,我正在尝试使用 pyspark 处理 hive 数据集,我有 3 个数据库,但我只是获得
作为 GCP 迁移的一部分,我需要将简单的 spark 语句迁移到 Bigquery。 一个表包含 2 列,需要根据 spark 语句
能否请您指导以下查询。 我需要将下面的字符串列转换为日期。 屏幕截图中提供了输入和预期输
我正在尝试使用 Sqoop 导入数据,以下是我的 sqoop 导入命令。由于此错误,我无法将数据导入我的 Hadoop
我必须将大图像的子样本存储为大小为 (20,20,5) 的 <code>.npy</code> 数组。为了在训练分类模型时均匀采样
嗨,我需要 1 个查询才能获得前 10 个 <code>country</code>,其中 <code>import</code> 药物在 2019 年至 2020 年之间
我已经想到了以下解决方案,但我确定我是否遗漏了什么和/或有更好的方法来做到这一点: 假设
我正在尝试创建架构,但出现错误: <块引用> bin/pinot-admin.sh AddTable -tableConfigFile $PDATA_HOME table-config
我目前在 pyspark 上遇到以下问题。我需要在行上创建一个滚动窗口,在另一行的值上应用一个函数。这