cuda - 编程之家

我正在尝试使用Numba将这个相当简单的功能实现为CUDA内核： <pre class="lang-py prettyprint-override"><code>@(2,&a

我是cuda的新手。我需要在2个或更多块之间交换数组。可以使用内核在块之间的共享内存中交换或交换数

我使用cmake构建C ++项目。我没有在CMAKE_CUDA_FLAGS中添加“ / Zi”编译选项。但是Visual Studio会自动将“ / Zi

在Nvidia开发人员博客中：<a href="https://developer.nvidia.com/blog/even-easier-introduction-cuda/" rel="nofollow noreferrer">An

我试图拦截pytorch库中的cudaMemcpy调用以进行分析。我注意到NVIDIA在CUDA工具包示例中有一个cuHook示例。但

我有一个经过测试的基于CRTP的自定义矩阵库，用于动态矩阵： <pre><code>#include <thrust/device_vector.h>

我正在尝试编写一个内核，该线程的线程迭代地处理工作队列中的项目。我的理解是，我应该能够通过

我定义了这样的128位自定义结构- <pre><code>typedef struct dtype{ int val; int temp2; int temp3; int temp4; }dtype; </code

我有3个内核，它们将两个数字相加。第一个在寄存器中添加两个数字。第二个从const存储器中获取一个

我试图了解我们GPU工作站单精度和双精度之间的性能差异。我们的工作站配备了两个TITAN RTX GPU，

<ol> <li>我通过vs2015创建了一个cuda项目（自动创建了vector_add的代码）。</li> </ol> <img src="https://i.stack.imgur.

我的PC上安装了cuda-10.1。当前，cuda的最新版本是cuda11.0。我正在考虑使用docker cuda 11.0版而不更改PC上的c

我有nvidia 610m gpu，我正在得到这个 <a href="https://i.stack.imgur.com/Mo6h9.png" rel="nofollow noreferrer">error</a> 我试图

注意：我使用的是GT 740，每个SM具有2个SM和192个CUDA内核。我有一个工作CUDA内核，该内核执行了4次

我在释放cupy中分配的内存时遇到问题。由于内存限制，我想使用统一内存。当我创建一个将分配给统一

我有两个向量“ xp”和“ fp”，分别对应于数据的x和y值。第三个向量“ x”是我要评估插值的x坐标。我使

我希望您的帮助可以使我澄清这个问题。我正在尝试通过公式获得有效带宽如何在CUDA C / C ++中实

我的开发环境是：Ubuntu 18.04.5 LTS，Python3.6，我已经通过conda（numba和cudatoolkit）安装了。 cuda支持的Nvidia GP

我正在尝试使用GPU而不是CPU运行dl4j模型。该模型使用CPU可以完美运行。因此，我决定尝试使用CUDA来利

我编写了两个程序来使用<a href="https://en.wikipedia.org/wiki/Gaussian_elimination" rel="nofollow noreferrer">Gaussian eliminat