如何解决Python从二进制文件读取“ 20”而不是“ 00”
我正在编写用于读取二进制文件并使用NULL值作为分隔符的csv格式打印其数据的十六进制表示的代码。在二进制/十六进制查看器中查看文件时,它向我显示了该序列作为文件的一部分:
41 73 73 65 6d 62 6c 79 c8 2d 01 00 04 00 00 00 07 00 00 00 00
但是,请使用此部分代码读取文件:
with open(file_in,"rb") as f:
while (byte := f.read(1)):
h_value = hex(ord(byte))
h_value = ("0" + h_value[2:])[-2:]
#print(byte)
#print(h_value)
if h_value != '00':
data_read.append(h_value)
else:
data_read.append(h_value)
if data_read:
with open(file_out,'a',newline = '') as c:
w = csv.writer(c)
w.writerow(data_read)
data_read = []
为该部分提供此信息
41,73,65,6d,62,6c,79,c3,88,2d,01,20,04,07,20
这是相关的,因为文件中其他地方有实际的“ 20”值作为数据。使用“ print(byte)”和“ print(h_value)”分别返回b' '
和20
,这让我认为是Python reading 错误的文件,而不仅仅是输出被转换。我有什么办法可以在整个过程中保留这些NULL值?
编辑1:其他信息,它使用IDLE运行Python 3.8.2。不知道编译器是否会对此有所作为,但我将看看Visual Studio是否会给我带来不同的结果。二进制查看器简称为Binary Viewer,版本为6.17。
解决方法
Python的文件读取或CSV创建没有问题,如以下程序所示:
import os,csv
os.system("od -xcb qq.in") # Show file as byte dump.
data_read = []
with open("qq.in","rb") as f:
byte = f.read(1)
while (byte):
h_value = hex(ord(byte))
h_value = ("0" + h_value[2:])[-2:]
data_read.append(h_value)
print(ord(byte),h_value) # Check individual bytes.
byte = f.read(1)
print(data_read)
with open("file_out.csv",'w') as c:
w = csv.writer(c)
w.writerow(data_read)
os.system("cat file_out.csv") # Show final CSV output.
该程序的输出为:
0000000 7341 6573 626d 796c 2dc8 0001 0004 0000
A s s e m b l y 310 - 001 \0 004 \0 \0 \0
101 163 163 145 155 142 154 171 310 055 001 000 004 000 000 000
0000020 0007 0000 0000
\a \0 \0 \0 \0
007 000 000 000 000
0000025
(65,'41')
(115,'73')
(115,'73')
(101,'65')
(109,'6d')
(98,'62')
(108,'6c')
(121,'79')
(200,'c8')
(45,'2d')
(1,'01')
(0,'00')
(4,'04')
(0,'00')
(0,'00')
(7,'07')
(0,'00')
['41','73','65','6d','62','6c','79','c8','2d','01','00','04','07','00']
41,73,65,6d,62,6c,79,c8,2d,01,00,04,07,00
因此,我将通过仔细查看您的输入文件来开始,这很可能是 it 的问题。
尤其是因为您输入的内容似乎还有其他更改,因此c8
字节已更改为c3 88
-这是Unicode编码转换。
从this answer中可以看到,0xc8
在两字节的UTF-8部分中:
Range Encoding Binary value
----------------- -------- --------------------------
U+000080-U+0007ff 110yyyxx 00000yyy xxxxxxxx
10xxxxxx
代码点c8
是位序列000 1100 1000
,因此将以1100 0011 1000 1000
或c3 88
的形式转换为UTF-8。
利用注释和paxdiablo的回答中的信息,我认为文件本身一定存在问题,因为从所有方面来看,问题不应该与Python有关。我再次在二进制查看器中将其打开,并将其导出为新的.BIN文件。新文件将读取应有的方式,因此看起来就是解决方案。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。