如何解决在AWS中解压缩大文件
我们最近在解压缩大文件后遇到了文件损坏的问题。解压缩过程无误完成,但可能遗漏最后5k字节。
我们当前的过程:.ZIP文件从S3下载到linux pod上,使用IO::Uncompress::Unzip
的perl代码解压缩单个.JSON文件,.JSON上传回S3。
还有另一层挑战。在本地使用本机Windows或Linux工具时,文件将完全解压缩,不会丢失字节。但是,有时文件中的单个字符会更改(我们已经看到JSON损坏,将“}]}”更改为} M}“或拼写错误的单词,将” item“更改为” idem“)。使用诸如7zip和Winrar。
在检查.ZIP文件的详细信息时,它似乎使用Windows进行编码压缩,而研究称使用GBK编码。我怀疑linux和某些使用UTF8解码的工具可能存在解码问题,但我一直无法确认。另外,我们甚至在本地Windows解压缩过程中都经历过更改单个字符的情况。
我们尝试在本地使用IO::Uncompress::Unzip
,导致文件不完整。
我们尝试在本地使用Archive::Zip
,该错误在4 GB以上的任何文件上都会出错。
我们已经尝试使用Compress::Raw::Zlib
,但这也没有用。
我们在文件句柄上尝试了autoflush
,导致文件不完整。
有人遇到过类似的行为吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。