sse - 编程之家

c – 如何优化“u [0] * v [0] u [2] * v [2]”与SSE或GLSL的代码行

我有以下功能(从开源项目 “recast navigation”)： /// Derives the dot product of two vectors on the xz-plane. (@p u . @p v) /// @param[in] u A vector [(x, y, z)] /// @param[in] v A vector [(x,

c – 32位应用程序中的64位功能？

我有一个32位应用程序,我计划在64位 Windows 7上运行. 在此阶段,由于依赖于第三方功能,我无法将整个应用程序转换为64位. 但是,我想在我的SSE优化中访问xmm9-xmm15寄存器,并且在执行我的应用程序时也使用64位cpus提供的附加寄存器. 这有可能用一些编译器标志来实现吗？在我看来,最好的方法是将程序划分为多个可执行文件.编译为64位的EXE可以与另一个32位EXE通信,使用

c – xorshift128的AVX / SSE版本

我正在努力做出最快的高质量RNG.阅读 http://xorshift.di.unimi.it/后,xorshift128似乎是一个很好的选择. C代码是 #include <stdint.h> uint64_t s[ 2 ]; uint64_t next(void) { uint64_t s1 = s[ 0 ]; const uint64_t s0 = s[ 1 ];

c – SSE比FPU慢？

我有一大块代码,其中的一部分包含这段代码： result = (nx * m_Lx + ny * m_Ly + m_Lz) / sqrt(nx * nx + ny * ny + 1); 我已经矢量化了如下(一切已经是一个浮动)： __m128 r = _mm_mul_ps(_mm_set_ps(ny, nx, ny, nx), _mm_set_ps(ny

由于不正确的内存对齐,在使用SSE内在函数时出现分段错误

我第一次使用SSE内在函数,即使在确保16byte内存对齐后,我也遇到了分段错误.这篇文章是我之前问题的扩展： How to allocate 16byte memory aligned data 这是我声明我的数组的方式： float *V = (float*) memalign(16,dx*sizeof(float)); 当我尝试这样做时： __m128 v_i = _mm_load_ps(&

在AVX寄存器内旋转字节的有效方法

总结/ tl; dr：有没有办法按位旋转YMM寄存器中的一个字节(使用AVX),而不是进行2x移位并将结果混合在一起？对于YMM寄存器中的每8个字节,我需要在其中左旋7个字节.每个字节需要比前者更向左旋转一个位.因此,1字节应旋转0位,第7字节旋转6位. 目前,我做了一个实现,通过[我在这里使用1位旋转作为示例]将寄存器1位向左移位,并将7向右移位.然后我使用混合操作(内部操作_mm256_bl

如何使用C中的SSE内在函数计算向量点积

我试图将两个向量相乘,一个向量的每个元素乘以另一个向量的同一索引中的元素.然后我想要求结果矢量的所有元素得到一个数字.例如,向量{1,2,3,4}和{5,6,7,8}的计算将如下所示： 1 * 5 2 * 6 3 * 7 4 * 8 本质上,我正在采取两个向量的点积.我知道有一个SSE命令来执行此操作,但该命令没有与之相关联的内在函数.在这一点上,我不想在我的C代码中编写内联汇编,所以我只想使用内

SSE指令在哪里优于正常指令

x86-64的SSE指令(向量指令)在哪里优于正常指令.因为我所看到的是,执行SSE指令所需的频繁加载和存储会使由于向量计算而产生的任何增益无效.那么有人可以给我一个示例SSE代码,它比普通代码表现更好. 也许是因为我分别传递了每个参数,就像这样…… __m128i a = _mm_set_epi32(pa[0], pa[1], pa[2], pa[3]); __m128i b = _mm_set

c – __mm128的向量将不会push_back()

这个简单的SSE代码： #include <vector> #include <emmintrin.h> int main() { std::vector<__m128> blah; blah.push_back(__m128()); } 在MSFF 10上崩溃,在0xffffffff发生segfault. 可能会出什么问题？ std :: vector不分配专门对齐的内存,__

无法在启用的cpu上使用SSSE3

我有一个Xeon W3550处理器应该支持SSE4.2指令集但是当我尝试在我的c程序中使用SSE2之外的任何东西时,我得到编译器错误,例如 #error "SSE4.2 instruction set not enabled" 我用的时候 $cat /procs/cpuinfo 它检测所有相关的sse指令集但是 $cpuid 仅检测SSE和SSE2. 我的操作系统是ubuntu 11.04,内核2

上交所和C集装箱

是否有明显的原因为什么以下代码segfaults？ #include <vector> #include <emmintrin.h> struct point { __m128i v; point() { v = _mm_setr_epi32(0, 0, 0, 0); } }; int main(int argc, char *argv[]) { std::vec

c – 如何在块复制期间矢量化范围检查？

我有以下功能： void CopyImageBitsWithAlphaRGBA(unsigned char *dest, const unsigned char *src, int w, int stride, int h, unsigned char minredmask, unsigned char mingreenmask, unsigned char minbluemask, un

如何在Delphi XE3中使用align-data-move SSE？

我试图运行以下, type Vector = array [1..4] of Single; {$CODEALIGN 16} function add4(const a, b: Vector): Vector; register; assembler; asm movaps xmm0, [a] movaps xmm1, [b] addps xmm0, xmm1 movaps