如何解决NSPredicate与NSString:查找超级字符串哪个更好/更快?
| 我正在搜索大量字符串,以查看给定的子字符串是否存在。似乎有两种合理的方法可以做到这一点。 选项1:使用“ 0”方法“ 1”并测试是否存在“ 2”:NSRange range = [string rangeOfSubstring:substring];
return (range.location != NSNotFound);
选项2.使用NSPredicate
语法CONTAINS
:
NSPredicate *regex = [NSPredicate predicateWithFormat:@\"SELF CONTAINS %@\",substring];
return ([regex evaluateWithObject:string] == YES)
哪种方法更好,或者我完全没有好的选项3?不,我不确定“更好”是什么意思,但是迭代7多次时可能意味着更快。
解决方法
您应该对使用
NSPredicate
的任何解决方案进行基准测试和计时,因为根据我的经验,NSPredicate
可能会非常慢。
为简单起见,我将使用一个简单的for(NSString *string in stringsArray) { }
类型的循环。循环主体将包含一个简单的“ 1”校验。通过使用ѭ12might,您可能可以将其性能提高百分之几,但是只有在搜索大量字符串时,您才会看到好处。使用CFStringFind()
的优点是可以避免(很小)Objective-C消息调度开销。再一次,当您搜索“很多”字符串时(对于某些经常变化的“很多”值),切换到那个通常是唯一的胜利,并且您应该始终将基准设置为当然。如果可以的话,建议使用较为简单的Objective-CrangeOfString:
方法。
一种更复杂的方法是将^ Blocks功能与NSEnumerationConcurrent
选项一起使用。 “ 15”仅表示您希望枚举在可能的情况下并发进行,如果该实现不支持并发枚举,则可以忽略该提示。但是,您的标准“ 17”很可能会实现并发枚举。实际上,这具有将the17中的所有对象分割并将其拆分到可用CPU上的效果。您需要注意如何改变^ Block在多个线程之间访问的状态和对象。这是一种可行的方法:
// Be sure to #include <libkern/OSAtomic.h>
__block volatile OSSpinLock spinLock = OS_SPINLOCK_INIT;
__block NSMutableArray *matchesArray = [NSMutableArray array];
[stringsToSearchArray enumerateObjectsWithOptions:NSEnumerationConcurrent usingBlock:^(id obj,NSUInteger idx,BOOL *stop) {
NSRange matchedRange = [obj rangeOfString:@\"this\"];
if(matchedRange.location != NSNotFound) {
OSSpinLockLock((volatile OSSpinLock * volatile)&spinLock);
[matchesArray addObject:obj];
OSSpinLockUnlock((volatile OSSpinLock * volatile)&spinLock);
}
}];
// At this point,matchesArray will contain all the strings that had a match.
它使用轻量级的“ 20”来确保一次只有一个线程可以访问并更新“ 21”。您也可以在上面使用相同的CFStringFind()
建议。
另外,您应该注意,rangeOfString:
本身不会匹配“单词边界”。在上面的示例中,我使用了单词this
,即使它不包含单词this
,它也将与字符串A paleolithist walked in to the bar...
匹配。
解决这种小问题的最简单方法是使用ICU正则表达式,并利用其“增强的分词功能”功能。为此,您有几种选择:
NSRegularExpression
,目前仅适用于> 4.2或> 4.3 iOS(我忘记了)。
RegexKitLite,通过RegexKitLite-4.0.tar.bz2
NSPredicate
,通过SELF MATCHES \'(?w)\\b...\\b\'
。这样做的好处是它不需要额外的东西(即RegexKitLite),并且可以在Mac OS X的所有(?)版本以及iOS> 3.0上使用。
以下代码显示如何通过NSPredicate
在ICU正则表达式中使用增强的分词功能:
NSString *searchForString = @\"this\";
NSString *regexString = [NSString stringWithFormat:@\".*(?w:\\\\b\\\\Q%@\\\\E\\\\b).*\",searchForString];
NSPredicate *wordBoundaryRegexPredicate = [NSPredicate predicateWithFormat:@\"SELF MATCHES %@\",regexString];
NSArray *matchesArray = [stringsToSearchArray filteredArrayUsingPredicate:wordBoundaryRegexPredicate];
通过将regexString
中的(?w:
替换为(?wi:
,可以使搜索大小写不敏感。
正则表达式,如果您有兴趣,基本上说
.*(?w:...).*
说“匹配(?w:...)
部分之前和之后的所有内容”(即,我们只对(?w:...)
部分感兴趣)。
(?w:...)
说“打开括号内的ICU增强的分词/查找功能”。
\\\\b...\\\\b
(实际上只是一个反斜杠,当它位于@\"\"
字符串中时,必须将所有反斜杠转义)说“匹配单词边界”。
\\\\Q...\\\\E
说\“处理文本,然后在after42ѭ之后立即开始,直到\\E
作为文字文本(认为\” Quote \“和\” End \“)\”。换句话说,“引用文字”中的任何字符都没有其特殊的正则表达式含义。
之所以使用\\Q...\\E
,是因为您可能要匹配searchForString
中的文字字符。否则,“ 45”将被视为正则表达式的一部分。例如,如果searchForString
是this?
,则没有\\Q...\\E
时,它将不会与字面字符串ѭ48match相匹配,而是匹配thi
或this
,这可能不是您想要的。 :)
, 情况(n):如果您要使用字符串数组来测试子字符串,则最好使用NSPredicate
。
NSPredicate *regex = [NSPredicate predicateWithFormat:@\"SELF CONTAINS %@\",substring];
NSArray *resultArray = [originalArrayOfStrings filteredArrayUsingPredicate:regex];
这将返回包含子字符串的字符串数组。
如果使用NSRange
,在这种情况下,您需要手动遍历数组的所有字符串对象,显然,它会比ѭ4slow慢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。