为什么Protobuf的内存小于Python中的普通dict + list？

如何解决为什么Protobuf的内存小于Python中的普通dict + list？

我在嵌套的dict / list中具有大量的原始类型结构。结构非常复杂，并不重要。

如果以python的内置类型（dict / list / float / int / str表示，则需要1.1 GB，但是如果我将其存储在protobuf中并加载到内存中，则它的大小要小得多。总共约250 MB。

我想知道这怎么可能。与某些外部库相比，python中的内置类型效率低下吗？

编辑：从json文件加载结构。因此对象之间没有内部引用

解决方法

“ int或float之类的“简单” python对象比protobuf使用的C语言对应对象需要更多的内存。

让我们以list的Python整数为例，而不是整数数组，例如array.array（即array.array('i',...)）中的整数。

对array.array的分析很简单：丢弃array.arrays对象的一些开销，每个元素仅需要4个字节（C整数的大小）。

对于整数列表，情况完全不同：

该列表不保存整数对象本身，而是保存指向对象的指针（8附加字节用于64位可执行文件）
即使是一个很小的非零整数也至少需要28个字节（请参阅import sys; sys.getsizeof(1)返回28）：8个字节用于引用计数，8个字节用于保存指向整数函数表的指针，则整数值的大小需要8个字节（Python的整数可以比2 ^ 32大得多），并且至少需要4个字节来保存整数值本身。
还有一个overhead for memory management of 4.5 bytes。

这意味着每个Python整数要花费40.5个字节，而可能的4个字节（如果使用long long int，则为8个字节，即64位整数）要高得多。

与doubles（即array.array('d',...)）数组相比，带有Python浮点数的列表的情况类似，每个数组仅需要大约8个字节。但对于清单，我们有：

该列表不保存float对象本身，而是保存指向对象的指针（{8附加字节用于64位可执行文件）
浮点对象需要24个字节（请参阅import sys; sys.getsizeof(1.0)返回24）：8个字节用于引用计数，8个字节用于保存指向浮点函数表的指针，8个字节用于保留double值本身。
因为24是8的倍数，所以内存管理的开销“仅”约为0.5个字节。

对于Python浮点对象，这意味着32.5字节，而对于C-double，则意味着8字节。

protobuf在内部使用与array.array相同的数据表示形式，因此需要更少的内存（如您所见，大约少4-5倍）。 numpy.array是数据类型的另一个示例，该数据类型保存原始C值，因此所需的内存比列表少得多。

如果不需要在字典中进行搜索，则将键值对保存在列表中所需的内存将比在字典中所需的内存少，因为不必维护搜索结构（这意味着一些内存成本）-这也是导致protobuf-数据的较小内存占用的另一件事。

要回答另一个问题：没有内置模块适用于Python-dict，没有内置模块array.array适用于Python-list，所以我借此机会毫不客气插入我的图书馆的广告：cykhash。

从cykhash need less than 25%的Python'S-dict / set内存中进行设置和映射，但是速度差不多。

这很正常，这全都取决于空间与时间的权衡。内存布局取决于特定数据结构的实现方式，而后者又取决于如何使用它。

通用字典通常用哈希表实现。它具有存储键值对的存储桶的固定大小列表。字典中的项目数可以小于，等于或大于存储桶数。如果较小，则会浪费空间。如果更大，字典操作将花费很长时间。哈希表的实现通常从一个小的初始存储桶列表开始，然后在添加新项时对其进行扩展以保持良好的性能。但是，调整大小还需要重新哈希处理，这在计算上非常昂贵，因此每当您执行此操作时，都希望留出一些增长空间。通用字典是时空之间的一个折衷，因为它们不“知道”它们应该包含多少个元素，并且因为没有完美的哈希函数。但是在足够好的情况下，通用哈希表将为您提供接近O（1）的性能。

序列化数据时，情况就不同了。传输中的数据不会更改，您不会使用它进行查找，也不会进行垃圾回收，边界对齐等操作。这意味着您可以简单地将键和值一个接一个地打包以节省空间。只要可以重建值，实际上就不需要元数据和控件结构。不利的一面是，处理打包数据非常慢，因为所有操作都需要O（n）时间。

由于这个原因，您几乎总是想要：

在发送数据之前将其从省时的格式转换为省空间的格式
接收到数据后，将数据从节省空间的格式转换为节省时间的格式。

如果您使用的是嵌套字典（或列表，在许多方面都相似），则差异将加起来甚至更加明显。如果您事先知道项目数并且数据没有太大变化，则可以通过为其预先分配内存来获得一些改进，例如dict.fromkeys(range(count))。

为什么Protobuf的内存小于Python中的普通dict + list？

如何解决为什么Protobuf的内存小于Python中的普通dict + list？

解决方法

相关推荐