如何解决OpenMP任务:使用二进制搜索在列表中搜索多个键
我正在尝试使用OpenMP任务构造同时搜索数组中的多个键。但是我的并行代码似乎比串行代码要慢得多。
能否请您提出一些建议以使并行代码更快?
#include<stdio.h>
#include <stdlib.h>
#include <omp.h>
int binary_search(int array[],int key,int size){
int low=0,high=size-1;
while(low<=high){
int mid = (low+high)/2;
if(array[mid]==key){
return 1;
}else if(key<array[mid]){
high = mid-1;
}else{
low = mid+1;
}
}
return 0;
}
void main(){
int size=10000000;
int *array = (int*)malloc(size*sizeof(int));
// Initializes the array
for(int i=0;i<size;i++){
array[i] = i;
}
// exists array stores if the ith key is in the Original array or not
int *exists = (int*)calloc(size,sizeof(int));
// SERIAL REGION
double end,start = omp_get_wtime();
for(int key=0;key<(size);key++){
exists[key] = binary_search(array,key,size);
}
end = omp_get_wtime();
printf("\nSerial execution time : %lf\n",end-start);
// Reset the exists array to 0 values
for(int i=0;i<size;i++){
exists[i]=0;
}
// PARALLEL REGION
start = omp_get_wtime();
#pragma omp parallel default(none) shared(array,size,exists)
{
#pragma omp single
{
for(int key=0;key<(size);key++){
#pragma omp task shared(array,exists) firstprivate(key)
{
exists[key]=binary_search(array,size);
}
}
}
}
end = omp_get_wtime();
printf("\nParallel execution time : %lf\n",end-start);
}
结果如下:
序列执行时间:1.383815
并行执行时间:10.438401
编译器:GCC 5.4.0
核心:8核心
谢谢你..
编辑:包括John Bollinger建议的更改。
解决方法
我看到的最大问题是#pragma omp critical
。这将导致大量不必要的锁定。您不需要关键区域,因为并行区域内部的多个线程无法访问exists
的任何元素。获取和释放锁的成本相当高,而且您要花很多钱,因此有可能完全解释性能问题。
此外,您不必在并行构造的末尾使用#pragma omp taskwait
,因为可以保证绑定到并行区域的所有显式任务都可以在控制权移出该构造之前完成。但是我怀疑这会导致性能问题。
更新
我做了一些实验:
-
对我来说,原始代码的性能差异比问题描述的还要明显:〜0.39 s vs 〜14.3 s。
-
我从用于生成任务的
omp single
线程切换到omp for
,在我的12个虚拟核心计算机上,并行性能提高了大约一个数量级。各个运行的并行性能差异很大,但是从0.1 s到1.8 s。 -
也许并不奇怪,当我摆脱外部
时,看到的性能与以前类似omp parallel
区域并将循环注释为omp parallel for
-
我摆脱了明确的任务,而仅仅依靠并行的
for
,从并行代码(〜0.09 s;偶尔 -
我将原始代码中的问题大小缩小了两个,四个和 八,并观察到线性扩展的时间。
这告诉我,至少在我的实现中,显式任务会带来相当大的开销。我觉得这并不奇怪。认识到为了创建显式任务,执行此操作的线程必须分配并初始化一个纪念任务数据和执行环境的对象,并且必须将该对象排队在共享任务队列上(需要同步)。然后,执行此类任务的线程必须先使任务数据出队,并设置数据和执行环境,然后才能执行任务的实际工作。
在这种情况下,对于一项耗时约40纳秒的任务,所有这些似乎都花费了约一微秒的时间。带回家的消息是避免细粒度的显式任务。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。