如何解决GCC内联汇编无法以x64 Intel格式将局部变量的地址加载到寄存器中?
我已经习惯了Intel格式的内联汇编。有谁知道如何在下面的代码中将两条AT&T行转换为Intel格式?基本上是将局部变量的地址加载到寄存器中。
int main(int argc,const char *argv[]){
float x1[256];
float x2[256];
for(int x=0; x<256; ++x){
x1[x] = x;
x2[x] = 0.5f;
}
asm("movq %0,%%rax"::"r"(&x1[0])); // how to convert to Intel format?
asm("movq %0,%%rbx"::"r"(&x2[0])); // how to convert to Intel format?
asm(".intel_syntax noprefix\n"
"mov rcx,32\n"
"re:\n"
"vmovups ymm0,[rax]\n"
"vmovups ymm1,[rbx]\n"
"vaddps ymm0,ymm0,ymm1\n"
"vmovups [rax],ymm0\n"
"add rax,32\n"
"add rbx,32\n"
"loopnz re"
);
}
特别是,在32位模式下编译时,允许使用mov eax,[var_a]
加载堆栈上的局部变量。例如,
// a32.cpp
#include <stdint.h>
extern "C" void f(){
int32_t a=123;
asm(".intel_syntax noprefix\n"
"mov eax,[a]"
);
}
它编译良好:
xuancong@ubuntu:~$ rm -f a32.so && g++-7 -mavx -fPIC -masm=intel -shared -o a32.so -m32 a32.cpp && ls -al a32.so
-rwxr-xr-x 1 501 dialout 6580 Aug 28 09:26 a32.so
但是,在64位模式下编译时,不允许使用相同的语法:
// a64.cpp
#include <stdint.h>
extern "C" void f(){
int64_t a=123;
asm(".intel_syntax noprefix\n"
"mov rax,[a]"
);
}
它不能编译:
xuancong@ubuntu:~$ rm -f a64.so && g++-7 -mavx -fPIC -masm=intel -shared -o a64.so -m64 a64.cpp && ls -al a64.so
/usr/bin/ld: /tmp/cclPNMoq.o: relocation R_X86_64_32S against undefined symbol `a' can not be used when making a shared object; recompile with -fPIC
/usr/bin/ld: final link failed: Nonrepresentable section on output
collect2: error: ld returned 1 exit status
那么有没有某种方法可以不用使用input:output:clobber
来完成这项工作,因为可以通过mov rax,[rsp+##]
或mov rax,[rbp+##]
直接访问简单的局部变量或函数参数而无需破坏其他寄存器?>
解决方法
太好了,让我们看一下测试结果:
#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <time.h>
#include <immintrin.h>
#define N 256000000
using namespace std;
void f1a(float *a,float *b,int64_t n){
asm("movq %0,%%rax"::"r"(a));
asm("movq %0,%%rbx"::"r"(b));
asm("movq %0,%%rcx"::"r"(n));
asm(".intel_syntax noprefix\n"
"shr rcx,3\n"
"re:\n"
"vmovaps ymm0,[rax]\n"
"vmovaps ymm1,[rbx]\n"
"vaddps ymm0,ymm0,ymm1\n"
"vmovaps [rax],ymm0\n"
"add rax,32\n"
"add rbx,32\n"
"loopnz re"
);
}
void f1b(float *a,3\n"
"re1:\n"
"vmovaps ymm0,32\n"
"dec rcx\n"
"jnz re1"
);
}
void f1c(float *a,%%rcx"::"r"(n));
asm(".intel_syntax noprefix\n"
"re2:\n"
"sub rcx,8\n"
"vmovaps ymm0,[rax+rcx*4]\n"
"vmovaps ymm1,[rbx+rcx*4]\n"
"vaddps ymm0,ymm1\n"
"vmovaps [rax+rcx*4],ymm0\n"
"jnz re2"
);
}
void f2a(float *a,int64_t n){
for(int i=n-8; i>=0; i-=8) {
__m256 x8 = _mm256_load_ps(&a[i]);
__m256 y8 = _mm256_load_ps(&b[i]);
__m256 s = _mm256_add_ps(x8,y8);
_mm256_store_ps(&a[i],s);
}
}
void f2b(float *a,int64_t n){
for(int i=(n>>3)-1; i>=0; --i) {
__m256 x8 = _mm256_load_ps(&a[i*8]);
__m256 y8 = _mm256_load_ps(&b[i*8]);
__m256 s = _mm256_add_ps(x8,y8);
_mm256_store_ps(&a[i*8],s);
}
}
void f3(float *a,int64_t n){
for(int i=n-1; i>=0; --i)
a[i] += b[i];
}
void test(float *a,void(*func)(float*,float*,int64_t),char *name){
clock_t t;
printf("Testing %s():",name); fflush(stdout);
t = clock();
func(a,b,N);
printf("%lu\n",clock()-t); fflush(stdout);
}
alignas(64) float x1[N];
alignas(64) float x2[N];
int main(int argc,const char *argv[]){
printf("Preparing buffer ...");
fflush(stdout);
for(int x=0; x<N; ++x){
x1[x] = x/10.0f;
x2[x] = 0.5f+1.0f/(x+1);
}
printf("Done!\n");
fflush(stdout);
test(x1,x2,f3,"warm-up-cache");
test(x1,f1a,"f1a");
test(x1,f1b,"f1b");
test(x1,f1c,"f1c");
test(x1,f2a,"f2a");
test(x1,f2b,"f2b");
test(x1,"f3");
return 0;
}
输出:
Preparing buffer ...Done!
Testing warm-up-cache():551638
Testing f1a():179409
Testing f1b():159309
Testing f1c():172496
Testing f2a():247539
Testing f2b():245975
Testing f3():520559
由于内联汇编程序不使用-O3进行编译,因此我注释掉了f1 *并使用-O3进行了编译。 O3测试结果如下:
Testing warm-up-cache():233775
Testing f2a():170199
Testing f2b():187909
Testing f3():181979
在这个简单的示例上,改进并不明显。但是,OP的解决方案仍然不存在。建议重复的帖子不包含64位Intel格式解决方案。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。