如何解决带有“.*”的“re.sub”方法
我在使用 python re
库时遇到了以下行为。
>>> import re
>>> re.sub(pattern=".*",repl="r",string="hello")
'rr'
如您所见,对于模式 .*
和替换字符 (r
) re.sub
方法返回 rr
。但我期望结果为 r
,因为 .*
会匹配整个字符串。这是为什么?。我也在 Go 中测试了相同的逻辑,但它返回了预期的结果。
package main
import (
"fmt"
"regexp"
)
func main() {
re := regexp.MustCompile(`.*`)
fmt.Println(re.ReplaceAllString("Hello","r")) // Will print `r`
}
解决方法
下面应该开始解释发生了什么:
>>> re.sub("x?","_","hello")
'_h_e_l_l_o_'
在字符串 re.sub
的每个位置都尝试匹配 x?
。它成功了,因为 x?
可以匹配空字符串,并用 _
替换空字符串。
以类似的方式,在下面
>>> re.sub(".*","r","hello")
'rr'
我们知道 re.sub
尝试匹配位置 0 中的 .*
,成功并消耗整个字符串。然后它尝试在结束位置匹配,成功(匹配空字符串)并再次用 r
替换它。如果您禁止空匹配,“令人费解”的行为就会消失:
>>> re.sub(".+","hello")
'r'
在 Python 3.7 之前的版本中,如果 re.sub
消耗了整个字符串,则它不会再次尝试在末尾匹配,而在 Python 3.7+ 中它会。更具体地说,引用 re.sub
的文档:
Changed in version 3.7:模式的空匹配在与前一个非空匹配相邻时被替换。
Python 3.7+(一致的行为)
>>> matches = lambda r,s: [m.span() for m in re.finditer(r,s)]
>>> matches("x?","x")
[(0,1),(1,1)]
>>> matches("x?","y")
[(0,0),1)]
>>> re.sub("x?","x")
'rr'
>>> re.sub("x?","y")
'ryr
Python 3.6(行为不一致)
>>> matches("x?","x")
'r'
>>> re.sub("x?","y")
'ryr'
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。