avx2 - 编程之家

我是一名初学者,我读过有关该主题的 this文章(因为我使用的是AVX2兼容机). 现在,我已经阅读了this问题来检查你的指针是否对齐. 我正在用这个玩具示例main.cpp测试它： #include <iostream> #include <immintrin.h> #define is_aligned(POINTER, BYTE_COUNT) \ (((uintptr_t)(con

c – 为什么MSVC的自动矢量化不使用AVX2？

我试图在我的编译器(Microsoft Visual Studio 2013)中使用矢量化.我面临的一个问题是它不想使用AVX2.在研究这个问题时,我构建了以下示例,它计算了16个数字的总和,每个数字为16位. int16_t input1[16] = {0}; int16_t input2[16] = {0}; ... // fill the arrays with some data //

c – AVX2比Haswell上的SSE慢

我有以下代码(普通,SSE和AVX)： int testSSE(const aligned_vector & ghs, const aligned_vector & lhs) { int result[4] __attribute__((aligned(16))) = {0}; __m128i vresult = _mm_set1_epi32(0); __m128i v1,

在零移位的AVX2中,c – 8位移位操作

有没有办法在AVX2中重建_mm_slli_si128指令,以将__mm256i寄存器移位x个字节？ _mm256_slli_si256似乎只是在[127：0]和[255：128]上执行两个_mm_slli_si128. 左移应该在__m256i上工作,如下所示： [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, ..., 32] -> [2, 3, 4, 5, 6,

在AVX寄存器内旋转字节的有效方法

总结/ tl; dr：有没有办法按位旋转YMM寄存器中的一个字节(使用AVX),而不是进行2x移位并将结果混合在一起？对于YMM寄存器中的每8个字节,我需要在其中左旋7个字节.每个字节需要比前者更向左旋转一个位.因此,1字节应旋转0位,第7字节旋转6位. 目前,我做了一个实现,通过[我在这里使用1位旋转作为示例]将寄存器1位向左移位,并将7向右移位.然后我使用混合操作(内部操作_mm256_bl

c – __m256i向量的随机元素

我想要改组__m256i向量的元素. 并且有一个内在的_mm256_shuffle_epi8,它可以做类似的事情,但它不会执行交叉通道随机播放. 如何使用AVX2指令进行操作？有一种方法来模拟这个操作,但它不是很漂亮： const __m256i K0 = _mm256_setr_epi8( 0x70, 0x70, 0x70, 0x70, 0x70, 0x70, 0x70, 0x70,