A2B4C8D16我的答案:C2
采用划分子矩阵技术优化矩阵乘法 CUDA 程序,子矩阵数组变量声明应加___前缀
A__global__B__device___C__shared__D__private__我的答案:C3
起泡排序改为奇偶转置排序,消除了循环步间的数据依赖的原因是
A 增大了元素比较距离B 减小了元素比较距离C 改为元素两两分组比较D 消除了元素比较我的答案:C4
求解同一个问题的 4 个并行算法的等效率函数分析结果如下,其中的可扩展性最优
A®(plogp)B@(p^2)C®(p"2logp)D@(p^3)我的答案:A5
为防止编译器不支持 OpenMP,应使用____实现 OpenMP 代码和普通代码的条件编译
A"#includeB"#pragmaompparallel"C"#ifdef_OPENMP"D"#define_OPENMP"我的答案:C6
利用 cacheline 一次读取多个数据字的机制优化程序访存性能,其机理是A 降低了访存延迟B 隐藏了访存延迟C 利用了 cache 空间局部性D 利用了 cache 时间局部性我的答案:C7
有大量分支指令的程序不适合下面哪种体系结构上进行并行化
ASISDBSIMDCSPMDDMIMD我的答案:B8
CPUcache 大小为 32KB,如希望(单精度浮点数)矩阵乘法计算过程中所有数据都驻留 cache 中,则矩阵大小最大为A16*16B32*32C64*64D128*128我的答案:C9
pthread_join 的第二个参数的作用是
A 设置指定线程属性B 获取指定线程属性C 向指定线程传递参数D 获取指定线程函数返回结果我的答案:D10
在分布式内存架构编程中,进程间不能
A 进行通信B 进行同步C 发送和接收消息D 通过读写变量交换数据我的答案:D11
关于 OpenMP