sse - 编程之家

GCM 乘法 ASM

我正在尝试实现 nist 800-38d <a href="https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-38d.pdf" rel="nofollow

可以在不使用通用寄存器的情况下将 8 位从 XMM 寄存器移动到内存吗？

我需要在不使用通用寄存器的情况下将 1 个字节从 xmm 寄存器移动到内存。而且我也不能使用 SSE4.1。有

向量化代码写入 PCI 时获取非法指令

我正在编写一个程序来写入设备的硬件寄存器范围。我正在使用 mmap 将硬件地址映射到虚拟地址（用户

如何将标量与 XMM 寄存器相乘

我想将存储在 <code>XMM0</code> 寄存器中的向量与标量相乘，我该怎么做。当我执行 VMULSS 时，只乘以

一个简单的 WebAssembly 和 Javascript 基准测试场景

我构建了一个简单的 javascript 与 WebAssembly/SIMD 基准测试，如下所示： <pre><code>var sum = 0; for (var c=0; c&lt

为什么将参数反转为 CMPGT 比较函数可以作为 CMPLT 工作？

我正在使用 AVX2 为一个项目优化一个小型数学库，但是，我偶然发现了一些轻微的不一致。 AVX2 缺

我获取 int 数组点积的内在函数比正常代码慢，我做错了什么？

我正在尝试了解内在以及如何正确利用和优化它，我决定实现一个函数来获得<stro

linux – gcc 4.x不支持x87 FPU数学？

我一直在尝试使用--with-fpmath = 387从源代码编译gcc 4.x但我收到此错误：“无效--with-fpmath = 387”.我查看了配置并发现它不支持此选项(即使文档仍然提到它作为可能的选项)：case ${with_fpmath} in avx) tm_file='${tm_file} i386/avxmath.h'

[转] ubuntu解决tensorflow提示未编译SSE3/4.1/4.2

在我的机器上出现的提示信息如下所示： W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE3 instructions, but these are available on your machine and could speed up CPU c

xcode – 在每个功能/每个代码块的基础上启用SSE4的正确方法？

对于我的一个OS X程序,我有一些使用SSE4.1指令的优化案例.在仅SSE3的计算机上,运行非优化分支： // SupportsSSE4_1 returns true on CPUs that support SSE4.1, false otherwise if (SupportsSSE4_1()) { // Code that uses _mm_dp_ps, an SSE4 inst

RapidJSON 代码剖析二：使用 SSE4.2 优化字符串扫描

原文地址：RapidJSON 代码剖析（二）：使用 SSE4.2 优化字符串扫描现在的 CPU 都提供了单指令流多数据流（single instruction multiple data, SIMD）指令集。最常见的是用于大量的浮点数计算，但其实也可以用在文字处理方面。其中，SSE4.2 包含了一些专为字符串而设的指令。我们通过使用这些指令，可以大幅提升某些 JSON 解析的性能。（配图为

ruby – HTTP流连接(SSE)客户端断开未检测到Sinatra / Thin在Heroku

我试图在雪松堆栈上部署一个Sinatra流SSE响应应用程序.不幸的是,当它在开发中完美地工作时,一旦部署到Heroku,调用连接时,回调或errback就不会被调用,导致连接池充满了陈旧的连接(从来没有超时,因为数据仍然被发送给他们服务器端.) Heroku文档的相关信息： Long-polling and streaming responses Cedar supports HTTP 1.1

c – 对于具有所有相同组件的SSE向量,可以动态生成还是预先计算？

当我需要执行一个向量操作,其操作数只是一个广播到每个组件的一个浮点数时,我应该预先计算__m256或__m128,并在需要时加载它,或者每次我使用_mm_set1_ps将浮点数广播到寄存器需要矢量？我一直在预先计算非常重要和高度使用的向量,并在运行中生成那些不太重要的向量.但我真的通过预先计算获得了任何速度吗？这值得吗？ _mm_set1_ps是用单个指令实现的吗？这可能会回答我的问题. 当然,

x86 – 使用sse指令的复合Mul和Div

通过SSE指令执行复杂的乘法和除法是否有益？我知道使用SSE时加法和减法表现更好.有人能告诉我如何使用SSE执行复杂的乘法以获得更好的性能吗？复杂的乘法定义为： ((c1a * c2a) - (c1b * c2b)) + ((c1b * c2a) + (c1a * c2b))i 所以你的2个组件是一个复数 ((c1a * c2a) - (c1b * c2b)) and ((c1b * c2a)

多线程 – 与每个物理核心绑定的线程并行的memset

我一直在 In an OpenMP parallel code, would there be any benefit for memset to be run in parallel?测试代码,我正在观察一些意想不到的事情. 我的系统是一个单插槽Xeon E5-1620,它是一个Ivy Bridge处理器,有4个物理内核和8个超线程.我使用的是Ubuntu 14.04 LTS,Linux Ker

c – 使用SIMD的常量浮点数

我一直在尝试使用microsoft的sse内在函数优化一些代码.优化我的代码时最大的问题之一是每当我想使用常量时就会发生LHS.似乎有一些关于生成某些常量( here和 here – section 13.4)的信息,但它的所有程序集(我宁愿避免). 问题是当我尝试用内在函数实现相同的东西时,msvc抱怨不兼容的类型等.有没有人知道使用内在函数的任何等效技巧？示例 – 生成{1.0,1.0,1.

SIMD使用无符号乘法对64位* 64位到128位进行签名

我创建了一个使用SIMD进行64位* 64位到128位的功能.目前我已经使用SSE2(acutally SSE4.1)实现了它.这意味着它可以同时运行两个64b * 64b到128b的产品.同样的想法可以扩展到AVX2或AVX512,同时提供四个或八个64b * 64到128b的产品. 我的算法基于 http://www.hackersdelight.org/hdcodetxt/muldws.c.

c – 如何编写可能优化为一个SSE指令的无符号加法代码？

在C或C中,您如何编写无符号添加两个可能被GCC优化的数组的代码到一个128位SSE无符号加法指令？ // N number of ints to be added // a, b input array // c sum array // nReg number of required vector registers const unsigned nReg = N*sizeof(uint32

c- AVX中的矩阵向量乘法不是比SSE中的比例快

我使用以下方法在SSE和AVX中编写矩阵向量乘法： for(size_t i=0;i<M;i++) { size_t index = i*N; __m128 a, x, r1; __m128 sum = _mm_setzero_ps(); for(size_t j=0;j<N;j+=4,index+=4) { a = _mm_load_ps(&A[

c – 如何使用SSE执行8 x 8矩阵运算？

我最初的尝试看起来像这样(假设我们想要成倍增加) __m128 mat[n]; /* rows */ __m128 vec[n] = {1,1,1,1}; float outvector[n]; for (int row=0;row<n;row++) { for(int k =3; k < 8; k = k+ 4) { __m128