sse - 编程之家

c – SSE/AVX寄存器的非零字节索引

如果SSE / AVX寄存器的值是所有字节都是0或1,有没有办法有效地获得所有非零元素的索引？例如,如果xmm值是 | r0 = 0 | r1 = 1 | r2 = 0 | r3 = 1 | r4 = 0 | r5 = 1 | r6 = 0 | … | r14 = 0 | r15 = 1 | 结果应该是(1,3,5,…,15).结果应放在另一个_m128i变量或char [16]数组中. 如果有

c – SSE双线性插值

我正在紧密循环中实现双线性插值并尝试使用SSE对其进行优化,但我从中获得零加速. 这是代码,非SIMD版本使用简单的向量结构,可以定义为struct Vec3f {float x,y,z;使用已实现的乘法和加法运算符： #ifdef USE_SIMD const Color c11 = pixelCache[y1 * size.x + x1]; const Color c12 =

与SSE进行128位哈希比较

在我目前的项目中,我必须比较128位值(实际上是md5哈希),我认为可以通过使用SSE指令来加速比较.我的问题是我无法找到关于SSE指令的好文档;我正在寻找一个128位整数比较指令,让我知道一个散列是大于,小于或等于另一个.这样的指令是否存在？ PS：目标计算机是带有SSE2指令的x86_64服务器;我也对同一工作的NEON指令感兴趣. SSE或NEON指令集中没有128位整数比较指令. SSE4

c – SSE内在函数中的if / else语句

我正在尝试使用SSE内在函数优化一小段代码(我是关于该主题的完全初学者),但我有点坚持使用条件. 我原来的代码是： unsigned long c; unsigned long constant = 0x12345678; unsigned long table[256]; int n, k; for( n = 0; n < 256; n++ ) { c = n; for( k = 0;

c – AVX2比Haswell上的SSE慢

我有以下代码(普通,SSE和AVX)： int testSSE(const aligned_vector & ghs, const aligned_vector & lhs) { int result[4] __attribute__((aligned(16))) = {0}; __m128i vresult = _mm_set1_epi32(0); __m128i v1,

c – 加速一次短暂的浮动投射？

我有一个简短的浮动投射在C中是瓶颈我的代码. 该代码从硬件设备缓冲区转换,该缓冲区本身是短路的,这代表来自花式光子计数器的输入. float factor= 1.0f/value; for (int i = 0; i < W*H; i++)//25% of time is spent doing this { int value = source[i];//ushort -> int

在声明时初始化一个union数组

我正在尝试在声明时初始化以下union数组： typedef union { __m128d m; float f[4]; } mat; mat m[2] = { {{30467.14153,5910.1427,15846.23837,7271.22705}, {30467.14153,5910.1427,15846.23837,7271.22705}}}; 但是我发现了以下错误： matrix

使用SSE最快地实现指数函数

我正在寻找在SSE元素上运算的指数函数的近似值.即 – __m128 exp(__ m128 x). 我有一个快速但实际上准确度非常低的实现： static inline __m128 FastExpSse(__m128 x) { __m128 a = _mm_set1_ps(12102203.2f); // (1 << 23) / ln(2) __m128i b = _mm_se

c – 如何将两组4个短路装入XMM寄存器？

我刚刚开始使用Visual C 2012的SSE内在函数,我需要一些指针(没有双关语). 我有两个数组,每个数组包含4个带符号的短路(每个数组因此是64位,总共128个).我想将一个加载到XMM寄存器的高位,另一个加载到低位.我可以使用SSE内在函数有效地实现这一目标吗？如果是这样,怎么样？ SSE2： short A[] = {0,1,2,3}; short B[] = {4,5,6,7};

c – 通过union合法访问__m128变量的字节？

考虑这个变量声明： union { struct { float x, y, z, padding; } components; __m128 sse; } _data; 我的想法是通过x,y,z字段分配值,执行SSE2计算,并通过x,y,z读取结果.对于这是否合法,我有些疑惑.我的关注是对齐：MSDN表示__m128

在零移位的AVX2中,c – 8位移位操作

有没有办法在AVX2中重建_mm_slli_si128指令,以将__mm256i寄存器移位x个字节？ _mm256_slli_si256似乎只是在[127：0]和[255：128]上执行两个_mm_slli_si128. 左移应该在__m256i上工作,如下所示： [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ..., 32] -> [2, 3, 4, 5, 6,

c – 如何使用SSE / AVX有效地执行double / int64转换？

SSE2具有在单精度浮点和32位整数之间转换向量的指令. > _mm_cvtps_epi32() > _mm_cvtepi32_ps() 但是没有双精度和64位整数的等价物.换句话说,他们缺少： > _mm_cvtpd_epi64() > _mm_cvtepi64_pd() 似乎AVX也没有. 什么是模拟这些内在函数的最有效的方式？如果您愿意削减角落,请双击“ – ” int64转换只能在两个指

C使用SSE指令来比较大量的int向量

我有一个巨大的向量< vector< int>> (18M×128).通常我想要2行这个向量,并通过这个功能进行比较： int getDiff(int indx1, int indx2) { int result = 0; int pplus, pminus, tmp; for (int k = 0; k < 128; k += 2) { pplus =

c – 使用ARM NEON内在函数的cvtColor的SIMD优化

我正在使用BGR的SIMD优化来进行灰度转换,相当于 OpenCV’s cvtColor() function.有一个Intel SSE版本的这个功能,我指的是它. (我正在做的是基本上将SSE代码转换为NEON代码.) 我几乎完成了编写代码,可以用g编译它,但是我无法得到正确的输出.有没有人有任何想法可能是什么错误？我得到什么(不正确)：我应该得到什么这是我的代码： #include <o

c – 在x64 CPU上读取原子16字节

我需要以16位字节读写.我做的只是使用cmpxchg16,这是所有x64处理器可用,除了我认为一个晦涩的AMD. 现在的问题是对齐16个字节的值,只有使用cmpxchg16(它的行为就像一个完整的内存屏障)才能修改,是否有可能读取一半的旧数据和一半的新数据的16位元的位置？只要我用SSE指令读取(所以线程在读取的中间不能中断),我认为这是不可能的(即使在多处理器numa系统中)读取看到不一致的数

c – 使用SSE的水平最小和最大值

我有一个使用SSE的功能来做很多事情,而分析器告诉我,我用来计算水平最小值和最大值的代码部分消耗大部分时间. 我一直在使用以下实现： static inline int16_t hMin(__m128i buffer) { buffer = _mm_min_epi8(buffer, _mm_shuffle_epi8(buffer, m1)); buffer = _mm_min_ep

如何使用128位C变量和xmm 128位asm？

在 gcc中,我想通过asm代码做一个128位xor与2 C变量,如何？ asm ( "movdqa %1, %%xmm1;" "movdqa %0, %%xmm0;" "pxor %%xmm1,%%xmm0;" "movdqa %%xmm0, %0;" :"=x"(buff) /* output operand */ :"x"(bu), "x

使用SSE4矢量化点产品计算

我正在尝试使用SSE4点阵产品改进此代码,但我很难找到解决方案.该函数获取包含具有80个单元格的浮点数组的参数qi和tj,然后计算点积.返回值是具有四个点积的向量.所以我要做的就是平行计算二十个值的四个点积. 你有什么想法如何改进这个代码？ inline __m128 ScalarProd20Vec(__m128* qi, __m128* tj) { __m128 res=_mm_add_

c – 为什么SSE设置(_mm_set_ps)反转参数的顺序

我最近注意到了 _m128 m = _mm_set_ps(0,1,2,3); 将4个浮点数转换为浮点数： (float*) p = (float*)(&m); // p[0] == 3 // p[1] == 2 // p[2] == 1 // p[3] == 0 同样的事情与工会{_m128 m;浮动[4] a }也. 为什么上证行业使用这个订单？这不是什么大事,但是有点混乱. 还有后续问题：当

c – x86是否有一个良好的双精度小矩阵SIMD库？

我正在寻找用于图形的SIMD库专注小(4×4)矩阵运算.有很多单精度的,但我需要支持单精度和双精度. 我看过英特尔的IPP MX库,但是我更喜欢有源的东西.我对这些特定操作的SSE3实现感兴趣： > Mat4 * Mat4 > Mat4 * Vec4 Mat4 * Mat4的数组 > Mat4 * Vec4阵列 > Mat4反转(很高兴有) 编辑：没有“过早优化”的答案.任何与小矩阵一起工作的人都