如何解决Python ctypes和可变性
我注意到,使用ctypes
将Python对象传递给本机代码会破坏对可变性的期望。
例如,如果我有一个C函数,例如:
int print_and_mutate(char *str)
{
str[0] = 'X';
return printf("%s\n",str);
}
我这样称呼它:
from ctypes import *
lib = cdll.LoadLibrary("foo.so")
s = b"asdf"
lib.print_and_mutate(s)
s
的值已更改,现在为b"Xsdf"
。
Python文档说"You should be careful,however,not to pass them to functions expecting pointers to mutable memory."。
这仅仅是因为它打破了对哪些类型是不可变类型的期望,或者其他结果是否可以打破?换句话说,如果我清楚地知道我的原始bytes
对象将发生变化,即使通常bytes
是不可变的,那还好吗?如果以后我会得到某种讨厌的惊喜不要像我应该的那样使用create_string_buffer
?
解决方法
听起来像是在CPython中可以最接近UB的地方。
虽然目前可能不会发生,但是CPython可以为您提供指向只读内存的指针,并且程序将出现段错误。
此外,CPython可能正在与其他对象共享字符串或子切片,而您将对其全部进行修改。
,Python对不可变对象进行了假设,因此对它们进行突变肯定会破坏事物。这是一个具体的例子:
>>> import ctypes as c
>>> x = b'abc' # immutable string
>>> d = {x:123} # Used as key in dictionary (keys must be hashable/immutable)
>>> d
{b'abc': 123}
现在为不可变对象构建一个ctypes可变缓冲区。 CPython中的id(x)
是Python对象的内存地址,而sys.getsizeof()
返回该对象的大小。 PyBytes对象有一些开销,但是对象的末尾具有字符串的字节。
>>> sys.getsizeof(x)
36
>>> px=(c.c_char*36).from_address(id(x))
>>> px.raw
b'\x02\x00\x00\x00\x00\x00\x00\x000\x8fq\x0b\xfc\x7f\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\xf0\x06\xe61\xeb\x00\x1b\xa9abc\x00'
>>> px.raw[-4:] # last bytes of the object
b'abc\x00'
>>> px[-4]
b'a'
>>> px[-4] = b'y' # Mutate the ctypes buffer,mutating the "immutable" string
>>> x # Now it has a modified value.
b'ybc'
现在尝试访问字典中的键。密钥使用其哈希值位于O(1)时间,但是has位于原始的“不可变”值上,因此它是不正确的。不能再通过旧值或新值找到该键:
>>> d # Note that dictionary key changed,too.
{b'ybc': 123}
>>> d[b'ybc'] # Try to access the key
Traceback (most recent call last):
File "<stdin>",line 1,in <module>
KeyError: b'ybc'
>>> d[b'abc'] # Maybe original key will work? It hashes same as the original...
Traceback (most recent call last):
File "<stdin>",in <module>
KeyError: b'abc'
,
各种对象由CPython嵌入并重新使用。示例是小整数(-5至127),但也包括短字符串和一些文字。此行为完全由实现定义,并且可以在版本之间自由更改。更改此类对象会触发任意行为,从根本没有行为到完全不确定的行为。
“原始字节对象”不是您的,而是CPython的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。