large-data - 编程之家

我有 10-50GB 的文本文件。我需要按如下方式编辑这些文件的前几行；原文； <pre><code>>Aura head

我正在处理一个大型数据集，它是实验的输出。有 1000(s) 个时间步长。在 10000(s) 的时间步长内，农民（

我正在尝试为来自 CFPB 的 <a href="https://www.consumerfinance.gov/data-research/consumer-complaints/" rel="nofollow noreferrer">

我想使用唯一 ID 和时间戳合并两个文件，并获取接下来 n 个间隔的测量值。第一个文件有超过 15,0

我正在尝试运行回归模型，我想在其中找到最佳预测变量。然而，数据包含超过 100,000 个变量（这是一

问题是关于 Oracle 11g、Exadata。我有一个大型临时表（1000 万行以上），其中有一列显示交易发生地

我正在尝试使用数据表包将大型 csv 数据集 (69GB) 加载到 R 中。我很难用 <code>rbindlist()</code> 将数据表对

我有一个基表，它定期从 IOT 设备收集数据，该表随着大小呈线性增长，并减慢了整个系统的速度。 <

我正在尝试将制表符分隔文件中的所有 ICD 代码转换为 Phecodes（基于 ICD-Phecode 转换表制表符分隔文件）

我有一个用例，我将“链接”拉入服务器文件共享上的文件。然后我需要对这些链接运行一些正则

我有下表 <div class="s-table-container"> <table class="s-table"> <头> <tr> <th style="text-align: right;">Id</th> <th style="tex

我已经阅读了很多关于此的问题，但我找不到一个。显示数百万数据的相关且有效的方式是什么？

我从 gbif (178GB) 压缩了一个非常大的物种数据集，解压时大约有 800GB (TSV) 我的 Mac 只有 512GB 内存和 8GB 内

我每个月都收到大量数据（50 列的 500 万条记录），我正在寻找一种有效的数据存储方式，可以在 R 中读

我想使用 pexpect 通过 debugfs 检查 inode 的文件内容。这样做的简单、明显……和错误的方法是期待“debugf

我的目标是为大量非均匀间隔数据找到平滑曲线，使得曲线的最小幅度尽可能大。 “csaps”函数似乎是

当您运行一个函数时，是否可以同时在多个内核上运行它以加快计算速度？我有一个简单的函数，但是

我正在创建一个地理空间网络应用程序，并且有一个非常大的数据库，目前它有 750 万个条目，到所有数

我使用多处理来生成大量非常大的 Pytables (H5) 文件——大到足以在单次扫描时出现内存问题。这些文件

我有大约 40 万张图像的数据集（仅用于训练用于验证和测试的单独数据集）。如果我使用 30k 图