如何解决变量零初始化会降低性能吗?
我正在纠正静态分析 (MISRA-C-2012) 违规行为,其中一项规则(规则 9.3)规定变量应在使用前初始化。
例如:
void bar_read(int * array)
{
printf("array[1]: %u\n",array[1]);
}
void bar_write(int * array)
{
array[1]=1;
}
int main(void)
{
#define FOO_SIZE 12
#ifdef MISRA_VIOLATION_DISABLED
int foo[FOO_SIZE] = {0}; //ok
#else
int foo[FOO_SIZE]; //violation
#endif
bar_read(foo);
bar_write(foo);
bar_read(foo);
return 0;
}
我的一些同事声称他们正在删除变量初始化(对于大数组)foo[FOO_SIZE] = {0};
,因为它会降低性能,这让我感到困惑。
在我的理解中,零初始化变量在编译时放在 bss 部分中,不会对运行时性能产生影响。
我会错吗?这可能取决于编译器吗?是否有任何优化使其成为现实?
解决方法
在函数内部用int foo[FOO_SIZE]
(无static
或extern
)定义的数组具有自动存储持续时间,这意味着每次执行时都会“创建”(为其保留内存)到达它所在的块并在该块的执行结束时“销毁”(释放内存)。由于可以递归调用函数,因此无法在 .bss
部分中为自动对象保留内存。堆栈一般用于他们。
此外,即使它们在 .bss
部分,它们在 C 模型中的生命周期仍然会在每次它们所在的块开始和结束时开始和结束。因此,如果它们被初始化,则每次新的生命周期开始时它们都必须被初始化。将它们存储在 .bss
部分不会在这方面保存任何内容。
此外,如果 .bss
部分是零初始化的,那不是免费的。每当操作系统提供内存来支持零初始化部分时,它必须清除该内存。
在没有 static
关键字的函数内部定义的变量具有自动存储持续时间。这些变量通常在进入作用域时在堆栈上创建。
这意味着如果这些变量被初始化,那么在运行时初始化它们会产生成本。
只有具有静态存储持续时间的变量,即在文件范围内或使用 static
关键字声明的变量,通常定义在 .data(如果明确初始化)或 .bss(如果没有)。
在 gcc 4.8.5 下使用 -O0
编译此代码时,定义 MISRA_VIOLATION_DISABLED
会产生以下附加代码:
subq $48,%rsp
leaq -48(%rbp),%rsi
movl $0,%eax
movl $6,%edx
movq %rsi,%rdi
movq %rdx,%rcx
rep stosq
,
auto
变量在运行时实例化,因此任何初始化也必须在运行时进行,这会导致一些性能损失——具体多少取决于编译器和优化级别。
话虽如此,您的同事不应该在不做以下两件事之一的情况下删除初始化:
-
证明没有代码会在赋值之前尝试读取任何数组元素;
-
量化性能损失和表明它超出了某些要求或规范 - 例如“要求 X 说这个操作必须在 100 毫秒或更短的时间内完成,但初始化需要 120 毫秒”或类似的东西。
编辑
例如,我更改了代码以将初始化程序定义为构建命令的一部分,然后我对 clock
库函数进行了一些粗略的检测:
#include <stdio.h>
#include <time.h>
void bar_read( int *array )
{
printf( "array[1]: %d\n",array[1] );
}
void bar_write( int *array )
{
array[1] = 1;
}
int main( void )
{
clock_t start = clock();
#ifndef FOO_SIZE
#define FOO_SIZE 2000
#endif
#ifndef INIT
#define INIT
#endif
int foo[FOO_SIZE] INIT ; // will expand to nothing or ={0} depending on build command
bar_read( foo );
bar_write( foo );
bar_read( foo );
clock_t end = clock();
printf( "operation took %lu clocks (%f seconds)\n",end-start,(double)(end-start)/CLOCKS_PER_SEC );
return (int)(end-start);
}
所以我可以在初始化和不初始化的情况下进行构建,看看运行所需的时间是否有所不同:
$ gcc -o init -std=c11 -pedantic -Wall -Werror -DFOO_SIZE=2000 -DINIT="" init.c
$ ./init
array[1]: -1898976766
array[1]: 1
operation took 39 clocks (0.000039 seconds)
$ gcc -o init -std=c11 -pedantic -Wall -Werror -DFOO_SIZE=2000 -DINIT="={0}" init.c
$ ./init
array[1]: 0
array[1]: 1
operation took 53 clocks (0.000053 seconds)
我有 main
返回程序主要部分占用的时钟数。然后我编写了一个 shell 脚本来构建带有和不带有数组初始值设定项的代码,将每个版本运行一百次(比我们需要的样本大,但运行时间并不长)并取这些运行的平均值(整数平均值,但足以说明问题):
#!/bin/bash
INIT_PARAMS=( '""' '"={0}"' )
let runs=100
for INIT in "${INIT_PARAMS[@]}"
do
cmd="gcc -o init -std=c11 -pedantic -Wall -Werror -DFOO_SIZE=2000 -DINIT=${INIT} init.c"
echo $cmd
eval $cmd
let x=0
for i in `seq 1 1 $runs`
do
./init >/dev/null # suppress output from init itself
let x=$x+$?
done
done
我得到的输出是:
$ . init_test.sh
gcc -o init -std=c11 -pedantic -Wall -Werror -DFOO_SIZE=2000 -DINIT="" init.c
Average clocks per run for INIT="" is 24
gcc -o init -std=c11 -pedantic -Wall -Werror -DFOO_SIZE=2000 -DINIT="={0}" init.c
Average clocks per run for INIT="={0}" is 33
因此,将 int
的 2000 个元素数组作为其声明的一部分进行初始化会受到一定的惩罚,平均而言,它是 9 个时钟(0.000009 秒),即增加了 37%,没有任何优化。提高优化级别会降低成本(可能),但不会完全消除成本。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。