如何解决对改善优化Perl代码中的现有字符串替换有何建议?
| Perl 5.8 在现有Perl脚本中对相当简单的字符串替换的改进。 代码的意图很明确,并且代码正在运行。 对于给定的字符串,将每次出现的TAB,LF或CR字符替换为一个空格,并将每次出现的双引号替换为两个双引号。这是现有代码的摘录:# replace all tab,newline and return characters with single space
$val01 =~s/[\\t\\n\\r]/ /g;
$val02 =~s/[\\t\\n\\r]/ /g;
$val03 =~s/[\\t\\n\\r]/ /g;
# escape all double quote characters by replacing with two double quotes
$val01 =~s/\"/\"\"/g;
$val02 =~s/\"/\"\"/g;
$val03 =~s/\"/\"\"/g;
问题:是否有更好的方法来执行这些字符串操作?
“更好的方式”是指更高效地执行它们,避免使用正则表达式(可能使用using1来替换制表符,换行符和lf字符),或者可能会使用(qr//
)来避免重新编译。
注意:我已经考虑过将字符串操作操作移至子例程,以减少正则表达式的重复。
注意:此代码有效,但并没有真正损坏。我只想知道是否有更合适的编码约定。
注意:这些操作是在一个循环中执行的,该循环有大量(> 10000)的迭代。
注意:该脚本当前在perl v5.8.8下执行。 (该脚本具有require 5.6.0
,但是可以将其更改为require 5.8.8
。(当前在生产服务器上不能选择安装更高版本的Perl。)
> perl -v
This is perl,v5.8.8 built for sun4-solaris-thread-multi
(with 33 registered patches,see perl -V for more detail)
解决方法
您现有的解决方案对我来说很好。
至于避免重新编译,您不必担心。 Perl的正则表达式仅按原样编译一次,除非它们包含内插表达式,而您没有。
为了完整起见,我应该提到,即使存在插值表达式,也可以仅通过提供
/o
标志告诉Perl一次编译正则表达式。
$var =~ s/foo/bar/; # compiles once
$var =~ s/$foo/bar/; # compiles each time
$var =~ s/$foo/bar/o; # compiles once,using the value $foo has
# the first time the expression is evaluated
,TMTOWTDI
您可以使用tr或index或substr或split函数作为替代。但是,您必须进行测量才能确定特定系统的最佳方法。
,您可能过早地进行了优化。您是否尝试过使用诸如Devel :: NYTProf之类的探查器来查看程序在大部分时间上的花费?
,我的猜测是,在您的第一个正则表达式中,tr///
(略)快于s///
。当然,速度的提高取决于我对您的程序和环境不了解的因素。分析和基准测试将回答该问题。
但是,如果您对代码的任何形式的改进感兴趣,是否可以提出可维护性修复建议?您对三个变量运行相同的替换(或一组替换)。这意味着,当您更改该替换项时,您需要对其进行三遍更改-并且三遍相同的操作总是很危险的:)
您可以考虑将代码重构为如下所示:
foreach ($val01,$val02,$val03) {
s/[\\t\\n\\r]/ /g;
s/\"/\"\"/g;
}
同样,将这些值放在一个数组中,而不是三个类似命名的变量中,这可能是一个好主意。
foreach (@vals) {
s/[\\t\\n\\r]/ /g;
s/\"/\"\"/g;
}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。