使用Python pickle模块的行为差异

如何解决使用Python pickle模块的行为差异

我正在开发一个处理大型对象的python应用程序，并且为了避免在执行过程中填满pc ram，我选择将临时对象（一步创建，下一步使用）存储在带有pickle模块的文件中。在尝试优化内存消耗时，我看到了我不了解的行为。

在第一种情况下，我打开了临时文件，然后循环执行所需的操作，并在循环中定期将对象转储到文件中。它运作良好，但是由于文件指针保持打开状态，因此会占用大量内存。这是代码示例：

tmp_file_path = "toto.txt"

with open(tmp_file_path,'ab') as f:
    p = pickle.Pickler(f)
    for filepath in self.file_list:  // loop over files to be treated
        try:
            my_obj = process_file(filepath)
            storage_obj = StorageObj()
            storage_obj.add(os.path.basename(filepath),my_obj)        
            p.dump(storage_obj)
            [...]

在第二种情况下，我仅在需要在其中写入临时文件时打开它：

tmp_file_path = "toto.txt"

for filepath in self.file_list:  // loop over files to be treated
    try:
        my_obj = process_file(filepath)
        storage_obj = StorageObj()
        storage_obj.add(os.path.basename(filepath),my_obj)
        with open(tmp_file_path,'ab') as f:
            p = pickle.Pickler(f)
            p.dump(storage_obj)
        [...]

除了块中，两个版本之间的代码相同：

with open(tmp_file_path,'ab') as f:
            p = pickle.Pickler(f)

在循环内/循环外移动。

对于去渍部分：

with open("toto.txt",'rb') as f:
    try:
        u = pickle.Unpickler(f)
        storage_obj = u.load()
        while storage_obj:
            process_my_obj(storage_obj)
            storage_obj = u.load()
    except EOFError:
        pass

当我同时运行这两个代码时，在第一种情况下，我的内存消耗很高（由于我猜想在处理期间临时文件保持打开状态），最后，通过一组输入，该应用程序在未选择的数据中找到622个元素。

在第二种情况下，内存消耗量要低得多，但是最后，使用相同的输入，应用程序会在未选择的数据中找到440个元素，有时在Unpickler.load（）方法期间会因随机错误而崩溃（例如属性错误，但它并不总是可复制的，也不总是相同的错误。

使用更大的输入集时，第一个代码示例通常会因内存错误而崩溃，因此我想使用第二个代码示例，但似乎无法正确地保存我的所有对象。

有人知道这两种行为之间存在差异的原因吗？也许在我的循环中打开/转储/关闭/重新打开/转储/等文件并没有保证转储的内容？

编辑1： 所有的酸洗部分都是在多处理上下文中完成的，其中有10个进程写在它们自己的临时文件中，并且通过读取每个创建的临时文件，由主进程完成解酸。

编辑2： 我无法提供完整的可复制示例（公司代码），但是处理方法包括解析C文件（基于pycparser模块的process_file方法）并生成表示C文件内容的对象（字段，函数等）-> my_obj。然后将my_obj存储在具有dict作为属性的对象（StorageObj）中，并从中提取包含my_obj对象和文件的文件作为。

如果有人能找到原因，在此先感谢，或者建议我避免这种情况的解决方法：）

解决方法

这与文件无关。这是因为您正在使用保留其备忘表的普通Pickler。

没有问题的示例将创建一个带有新备忘录表的新Pickler，并使旧的Pickler能够有效地清除备忘录表。

但这并不能解释为什么我创建多个Pickler时检索的数据少于最后一个的情况。

现在，这是因为您已将多个泡菜写入相同的文件和读取方法。仅读取第一个。在关闭并重新打开文件时，将重置文件偏移。每次调用时读取多个对象时，加载都会将文件偏移量移至下一个对象的开头。

使用Python pickle模块的行为差异

如何解决使用Python pickle模块的行为差异

解决方法

相关推荐