bigdata - 编程之家

我正在开发 PHP Web 应用程序，该应用程序从数据库请求大数据并将其响应回 Web 浏览器并通过 API 响应。<

我有很多文件需要读取到R中，将它们放入数据帧中，然后按特定的列（“ pracid”）拆分。计算将在群集

我是德鲁伊的新手。在我们的应用程序中，我们将druid用于时间序列数据，这可能会很大（10-20TB）。德

我正在分析数GB的文本，并建立最常用单词（出现次数）的频率图。自然地，当我的问题集从小规模测试

我有一个拥有超过300万个条目的数据库。一旦我开始处理这些条目，就有可能在数据库中添加新条目。

我有两个sql（postgres）表，我需要从一个表到另一表插入一列。注意每个表包含大约1亿条记录例

我目前正在将sklearn回归变量安装在一个非常大的数据集（考虑数十亿行）上，并且鉴于我的硬件/云选项

我们正在获取具有以下字段的订单数据（仅显示相关字段） <a href="https://i.stack.imgur.com/bdyQo.png" rel=

我有120个txt文件，所有文件的大小都在150mb左右，并且有数千列。总体上肯定有超过一百万列。当我尝

我正在Rstudio中使用500多个千兆位栅格。我的代码运行正常，但问题是R正在将所有栅格数据写入一

我正在尝试从实木复合地板文件中读取元数据信息： <pre><code>metaData=ParquetFileReader.readFooter(fs.getConf(),f

我正在学习Pandas数据框以及与性能优化有关的问题。由于我很慢而且很新，所以即使输出正确，我的代

我有<code>.xlsx</code>个文件，它们仅包含一个名为“ nomenklatura”的列，并具有数千行（从60k到600k）。所有

我正在尝试使用word2vec和tfidf-score对包含1,6M条推文的数据集进行一种基本的推文情感分析，但是我的6 GB G

我正在编写一个代码，该代码需要根据大表的每一行填充一组数据结构。现在，我正在使用熊猫读取数

我正在一个项目中，我存储着数百万个网站的dns记录，我需要定期监视和更新这些数据中的更改。数据

我正在尝试对熊猫数据框中的Series对象运行语言检测。但是，我正在处理数百万行的字符串数据，并且

我有一个包含 30M 行的大表（每天都在增加）。该表包括一些字段，例如<code>id</code>、<code>stationId</code>

我有 5 TB 的数据，在集群 Hadoop 上有超过 100 000 个 CSV 文件。我的第一个目标是使用删除的几列创

我将很快按 3 列合并两个数据集。希望原始数据集中没有/很少有 3 个列组重复。我想制作一些东西，大