cuda - 编程之家

可达图计算目前正在解决的问题目前抑制计算速度提升的因素如下：计算出的可达图数据不能均匀分布在哈希表中，可参考jdk8中hashmap源码结合

我刚刚开始学习如何使用Numba和CUDA进行编程，因此此代码可能是非常错误的，但是我不明白为什么它不

在编译源代码时，我仍然无法完全理解cuda的计算能力。假定二进制文件是使用（<strong> code = sm_30

我想用整数1替换设备矢量的所有非零元素。我特别想仅使用CUDA库执行此操作。有没有推力功能可

由于某些与“虚拟表”或“虚拟指针”相关的原因，Cuda似乎不允许我“将从虚拟基类派生的类的对象传

我有一个非常简单的CUDA项目： <ul> <li>一个<a href="https://developer.nvidia.com/blog/even-easier-introduction-cuda/" re

我有一个矩阵类，其中包括其成员函数的子集， <pre><code>#ifndef _CMATRIX_CUH_ #define _CMATRIX_CUH_ #include <

两个问题： <ol> <li> 根据Nsight Compute，我的内核受计算限制。相对于峰值性能，SM利用率为74％，内

我可以在网上找到许多使用CUDA纹理引用的示例，但很少有依赖纹理对象的示例。我试图了解为什么我的

因此，本指南<a href="https://developer.nvidia.com/blog/how-overlap-data-transfers-cuda-cc/" rel="nofollow noreferrer">here</a>显

我用cuda-C（Win-10上的Visual Studio 2015，GPU设备= TitanXp）编写了以下代码，以计算1D数组（从2D展平）中所有

我正在尝试使用CUDA驱动程序API启动内核。具体来说，我正在打电话 <pre><code>CUresult CUDAAPI cuLaunchKernel(

我使用函数从一些RGB数据创建OpenGL纹理/ CUDA表面对。 <code>cudaSurfaceObject_t</code>可以在CUDA内核中用于GPU加

在以下测试代码中，我们通过GPU初始化数据，然后通过CPU访问数据。我对nvprof的分析结果有2个问题。

我正在尝试在cuda / c ++程序上使用nvprof，但是得到了输出： <pre><code>======== Warning: unable to locate profiling

我有一个CUDA内核- <pre><code>template <typename T, typename C> __global__ void cuda_ListArray_num( C *tonum, const T

我试图了解为什么我的CUDA内核的性能相对较低，我希望可以使用NVIDIA Profiler获得一些答案。我的CU

我正在尝试编译并运行以下名为test.cu的程序： <pre><code>#include <iostream> #include <math.h> #include &

尝试使用<code>std::vector</code>将数据从<code>thrust::device_vector</code>复制到<code>thrust::copy</code>时遇到以下错误

这些是我的假设： <ol> <li>有两种类型的加载，已缓存和未缓存。在第一个中，流量通过L1和L2，而在