如何解决如何删除重复三遍或更多遍的单词中的替换
我正在使用文本数据进行预处理。有些单词的字母是重复的,我必须纠正它们。
例如以下句子:
sentence = 'likeeeee sooooo looovvve hmmmmmmm'
必须更改为:
sentence = 'like so love hm'
有人可以帮忙吗?
解决方法
您可以像这样使用正则表达式和前瞻。随时提出任何问题,我会尽力提供帮助。
import re
s = 'likeeeee sooooo looovvve hmmmmmmm'
print(re.sub(r"(.)(?=\1)","",s))
,
您可以使用正则表达式。
import re
sentence = 'likeeeee sooooo looovvve hmmmmmmm'
for m in re.findall(r"(\w)\1{2,}",sentence):
s = m + m
while s in sentence:
sentence = sentence.replace(s,m)
print(sentence)
输出
like so love hm
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。