A2B4C8D16我的答案:C2. 采用划分子矩阵技术优化矩阵乘法 CUDA 程序,子矩阵数组变量声明应加___前缀。A__global__B__device___C__shared__D__private__我的答案:C3. 起泡排序改为奇偶转置排序,消除了循环步间的数据依赖的原因是。A 增大了元素比较距离B 减小了元素比较距离C 改为元素两两分组比较D 消除了元素比较我的答案:C4. 求解同一个问题的 4 个并行算法的等效率函数分析结果如下,其中的可扩展性最优。A®(plogp)B@(p^2)C®(p"2logp)D@(p^3)我的答案:A5. 为防止编译器不支持 OpenMP,应使用____实现 OpenMP 代码和普通代码的条件编译。A"#includeB"#pragmaompparallel"C"#ifdef_OPENMP"D"#define_OPENMP"我的答案:C6. 利用 cacheline 一次读取多个数据字的机制优化程序访存性能,其机理是A 降低了访存延迟B 隐藏了访存延迟C 利用了 cache 空间局部性D 利用了 cache 时间局部性我的答案:C7. 有大量分支指令的程序不适合下面哪种体系结构上进行并行化?ASISDBSIMDCSPMDDMIMD我的答案:B8. CPUcache 大小为 32KB,如希望(单精度浮点数)矩阵乘法计算过程中所有数据都驻留 cache 中,则矩阵大小最大为A16*16B32*32C64*64D128*128我的答案:C9. pthread_join 的第二个参数的作用是。A 设置指定线程属性B 获取指定线程属性C 向指定线程传递参数D 获取指定线程函数返回结果我的答案:D10. 在分布式内存架构编程中,进程间不能。A 进行通信B 进行同步C 发送和接收消息D 通过读写变量交换数据我的答案:D11. 关于 OpenMP 循环并行程序的编写,下列说法中正确的是____。A 程序员需要编写线程创建和管理代码B 程序员需要编写循环划分代码C 程序员需要编写调度策略代码D 程序员只需指出对哪个循环进行并行,循环划分和调度策略是什么我的答案:D12. 在 SSEintrinsics 程序中双精度浮点数数据类型是。A__m128B__m128fC__m128dD__m128i我的答案:C13. 在使用条件变量之后必须对其进行。A 初始化B 加锁C 解锁D 销毁我的答案:D14. 采用搜索分解设计 15 数码问题的并行算法,不包含下面哪个步骤_A 串行生成一定规模的搜索树B 当前每个叶结点为根的子树搜索分配给一个处理器C 发现解的处理器通知其他处理器D 将所有处理器的结果组合成最终解我的答案:D15. 静态任务划分相对于动态任务划分的缺点是。A 可能导致负载不均B 通信开销高C 计算复复杂度高D 任务粒度粗我的答案:A16. O...