GCC内联汇编无法以x64 Intel格式将局部变量的地址加载到寄存器中?

如何解决GCC内联汇编无法以x64 Intel格式将局部变量的地址加载到寄存器中?

我已经习惯了Intel格式的内联汇编。有谁知道如何在下面的代码中将两条AT&T行转换为Intel格式?基本上是将局部变量的地址加载到寄存器中。

int main(int argc,const char *argv[]){
    float x1[256];
    float x2[256];

    for(int x=0; x<256; ++x){
        x1[x] = x;
        x2[x] = 0.5f;
    }

    asm("movq %0,%%rax"::"r"(&x1[0])); // how to convert to Intel format?
    asm("movq %0,%%rbx"::"r"(&x2[0])); // how to convert to Intel format?

    asm(".intel_syntax noprefix\n"
        "mov rcx,32\n"
"re:\n"
        "vmovups ymm0,[rax]\n"
        "vmovups ymm1,[rbx]\n"
        "vaddps ymm0,ymm0,ymm1\n"
        "vmovups [rax],ymm0\n"
        "add rax,32\n"
        "add rbx,32\n"
        "loopnz re"
    );
}

特别是,在32位模式下编译时,允许使用mov eax,[var_a]加载堆栈上的局部变量。例如,

// a32.cpp
#include <stdint.h>
extern "C" void f(){
    int32_t a=123;
    asm(".intel_syntax noprefix\n"
        "mov eax,[a]"
    );
}

它编译良好:

xuancong@ubuntu:~$ rm -f a32.so && g++-7 -mavx -fPIC -masm=intel -shared -o a32.so -m32 a32.cpp && ls -al a32.so
-rwxr-xr-x 1 501 dialout 6580 Aug 28 09:26 a32.so

但是,在64位模式下编译时,不允许使用相同的语法:

// a64.cpp
#include <stdint.h>
extern "C" void f(){
    int64_t a=123;
    asm(".intel_syntax noprefix\n"
        "mov rax,[a]"
    );
}

它不能编译:

xuancong@ubuntu:~$ rm -f a64.so && g++-7 -mavx -fPIC -masm=intel -shared -o a64.so -m64 a64.cpp && ls -al a64.so
/usr/bin/ld: /tmp/cclPNMoq.o: relocation R_X86_64_32S against undefined symbol `a' can not be used when making a shared object; recompile with -fPIC
/usr/bin/ld: final link failed: Nonrepresentable section on output
collect2: error: ld returned 1 exit status

那么有没有某种方法可以不用使用input:output:clobber来完成这项工作,因为可以通过mov rax,[rsp+##]mov rax,[rbp+##]直接访问简单的局部变量或函数参数而无需破坏其他寄存器?>

解决方法

太好了,让我们看一下测试结果:

#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <time.h>
#include <immintrin.h>

#define N 256000000
using namespace std;

void f1a(float *a,float *b,int64_t n){
    asm("movq %0,%%rax"::"r"(a));
    asm("movq %0,%%rbx"::"r"(b));
    asm("movq %0,%%rcx"::"r"(n));

    asm(".intel_syntax noprefix\n"
        "shr rcx,3\n"
"re:\n"
        "vmovaps ymm0,[rax]\n"
        "vmovaps ymm1,[rbx]\n"
        "vaddps ymm0,ymm0,ymm1\n"
        "vmovaps [rax],ymm0\n"
        "add rax,32\n"
        "add rbx,32\n"
        "loopnz re"
    );
}

void f1b(float *a,3\n"
"re1:\n"
        "vmovaps ymm0,32\n"
        "dec rcx\n"
        "jnz re1"
    );
}

void f1c(float *a,%%rcx"::"r"(n));

    asm(".intel_syntax noprefix\n"
"re2:\n"
        "sub rcx,8\n"
        "vmovaps ymm0,[rax+rcx*4]\n"
        "vmovaps ymm1,[rbx+rcx*4]\n"
        "vaddps ymm0,ymm1\n"
        "vmovaps [rax+rcx*4],ymm0\n"
        "jnz re2"
    );
}

void f2a(float *a,int64_t n){
    for(int i=n-8; i>=0; i-=8) {
        __m256 x8 = _mm256_load_ps(&a[i]);
        __m256 y8 = _mm256_load_ps(&b[i]);
        __m256 s = _mm256_add_ps(x8,y8);
        _mm256_store_ps(&a[i],s);
    }
}

void f2b(float *a,int64_t n){
    for(int i=(n>>3)-1; i>=0; --i) {
        __m256 x8 = _mm256_load_ps(&a[i*8]);
        __m256 y8 = _mm256_load_ps(&b[i*8]);
        __m256 s = _mm256_add_ps(x8,y8);
        _mm256_store_ps(&a[i*8],s);
    }
}

void f3(float *a,int64_t n){
    for(int i=n-1; i>=0; --i)
        a[i] += b[i];
}

void test(float *a,void(*func)(float*,float*,int64_t),char *name){
    clock_t t;
    printf("Testing %s():",name); fflush(stdout);
    t = clock();
    func(a,b,N);
    printf("%lu\n",clock()-t); fflush(stdout);
}

alignas(64) float x1[N];
alignas(64) float x2[N];

int main(int argc,const char *argv[]){
    printf("Preparing buffer ...");
    fflush(stdout);
    for(int x=0; x<N; ++x){
        x1[x] = x/10.0f;
        x2[x] = 0.5f+1.0f/(x+1);
    }
    printf("Done!\n");
    fflush(stdout);

    test(x1,x2,f3,"warm-up-cache");
    test(x1,f1a,"f1a");
    test(x1,f1b,"f1b");
    test(x1,f1c,"f1c");
    test(x1,f2a,"f2a");
    test(x1,f2b,"f2b");
    test(x1,"f3");

    return 0;
}

输出:

Preparing buffer ...Done!
Testing warm-up-cache():551638
Testing f1a():179409
Testing f1b():159309
Testing f1c():172496
Testing f2a():247539
Testing f2b():245975
Testing f3():520559

由于内联汇编程序不使用-O3进行编译,因此我注释掉了f1 *并使用-O3进行了编译。 O3测试结果如下:

Testing warm-up-cache():233775
Testing f2a():170199
Testing f2b():187909
Testing f3():181979

在这个简单的示例上,改进并不明显。但是,OP的解决方案仍然不存在。建议重复的帖子不包含64位Intel格式解决方案。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-