如何解决在C#中使用/不使用正则表达式清除不需要的十六进制字符
我必须以更好的方式清除异常消息中的十六进制字符。目前,它可以手动替换字符,这似乎是完全的灾难:
var clearedStr = str.Replace(Convert.ToString((char)0x01),"")
.Replace(Convert.ToString((char)0x02),"")
.Replace(Convert.ToString((char)0x03),"")
.Replace(Convert.ToString((char)0x04),"")
.Replace(Convert.ToString((char)0x05),"")
.Replace(Convert.ToString((char)0x06),"")
.Replace(Convert.ToString((char)0x07),"")
.Replace(Convert.ToString((char)0x08),"")
.Replace(Convert.ToString((char)0x0B),"")
.Replace(Convert.ToString((char)0x0C),"")
.Replace(Convert.ToString((char)0x0E),"")
.Replace(Convert.ToString((char)0x0F),"")
.Replace(Convert.ToString((char)0x10),"")
.Replace(Convert.ToString((char)0x11),"")
.Replace(Convert.ToString((char)0x12),"")
.Replace(Convert.ToString((char)0x13),"")
.Replace(Convert.ToString((char)0x14),"")
.Replace(Convert.ToString((char)0x15),"")
.Replace(Convert.ToString((char)0x16),"")
.Replace(Convert.ToString((char)0x17),"")
.Replace(Convert.ToString((char)0x18),"")
.Replace(Convert.ToString((char)0x19),"")
.Replace(Convert.ToString((char)0x1a),"")
.Replace(Convert.ToString((char)0x1b),"")
.Replace(Convert.ToString((char)0x1c),"")
.Replace(Convert.ToString((char)0x1d),"")
.Replace(Convert.ToString((char)0x1e),"")
.Replace(Convert.ToString((char)0x84),"")
.Replace(Convert.ToString((char)0x86),"")
.Replace(Convert.ToString((char)0x87),"")
.Replace(Convert.ToString((char)0x88),"")
.Replace(Convert.ToString((char)0x89),"");
例如这样的消息,带有十六进制字符:
实际上我写了一个正则表达式,但它适用于像0x1e这样的十六进制字符,但不适用于它的等效字符:
但是我需要找到这些字符,而不是等效的十六进制:
“”,“'”,“ƒ”,“”,“”,“'”,“”,“š”,“ ˆ”,“‰”,“Š”,“ ‹”,“Œ” ,“”,“„”,“†”,“‡”
相同字符及其符号:
“ RS:,PU1:‘,NBH:ƒ,US:,ESC:,PU2:’,GS:, SCI:š,HTS:ˆ,HTJ:‰,VTS:Š,PLD:‹,PLU:Œ,SUB:,IND:„,SSA:†,ESA:‡“
正则表达式是我写的:
http://regexstorm.net/tester?p=%5b0-9%5dx%5b0-9A-F%5d&i=0x1e+0x91+0x1c+0x83
此外,我需要涵盖所有这类特性,而不是一堆。
解决方法
作为MindSwipe suggests,您可以使用\p{C}
来匹配任何控制字符。
但是您不需要添加很多代码来减去您可能想要保留的某些字符,请使用字符类减法:
var output = Regex.Replace(YourTextVariable,@"[\p{C}-[\t\r\n]]+","");
这将匹配一个或多个与制表符,回车符和换行符不同的控制字符。
,在进一步阅读之前,请先看看Ryszard Czech的answer,了解如何执行此操作而无需任何多余的代码来添加换行符
这可以通过替换字符串中的每个控制字符来实现,幸运的是正则表达式具有答案:
var s = "a \nb" + Convert.ToString((char)0x1b) + Convert.ToString((char) 0x1e);
Regex.Replace(s,@"\p{C}+",String.Empty);
@"\p{C}+"
匹配所有控制字符。请注意,这还将匹配新行(\n
),这意味着您的输出将没有任何新行,如this示例中所示。如果要保留换行符,则必须首先将字符串拆分成一个数组,并在每行上Regex.Replace
,然后将它们重新组合在一起。像这样:
var lines = s.Split(new[] { Environment.NewLine },StringSplitOptions.None);
var sb = new StringBuilder();
foreach (var line in lines)
{
sb.AppendLine(Regex.Replace(line,String.Empty));
}
s = sb.ToString();
这留下了结尾的换行符,可以很容易地将其删除,如下所示:
if (sb[sb.Length - 1] == '\n')
sb.Remove(sb.Length - 1,1);
在致电sb.ToString()
之前执行此操作。 Here是证明这一点的dotnetfiddle
有时候好的老foreach
是正确的选择。怎么样:
private static readonly char[] CharsToReplace =
{
'\x02','\x03','\x04','\x05','\x06','\x07','\x08','\x0B','\x0C','\x0E','\x0F','\x10','\x11','\x12','\x13','\x14','\x15','\x16','\x17','\x18','\x19','\x1a','\x1b','\x1c','\x1d','\x1e','\x84','\x86','\x87','\x88','\x89',};
public static string ReplaceNonPrintables(string stringToProcess)
{
StringBuilder buf = new StringBuilder(stringToProcess.Length);
foreach (var c in stringToProcess)
{
if (!CharsToReplace.Contains(c))
{
buf.Append(c)
}
}
return buf.ToString();
}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。