1. 一个SSE 寄存器可容纳____个短整型数。 A 2 B 4 C 8 D 16 我的答案:C 2. 采用划分子矩阵技术优化矩阵乘法CUDA 程序,子矩阵数组变量声明应加___前缀。 A __global__ B __device___ C __shared__ D __private__ 我的答案:C 3. 起泡排序改为奇偶转置排序,消除了循环步间的数据依赖的原因是____。 A 增大了元素比较距离 B 减小了元素比较距离 C 改为元素两两分组比较 D 消除了元素比较 我的答案:C 4. 求解同一个问题的4 个并行算法的等效率函数分析结果如下,其中____的可扩展性最优。 A Θ(plogp) B Θ(p^2) C Θ(p^2logp) D Θ(p^3) 我的答案:A 5. 为防止编译器不支持OpenMP,应使用____实现OpenMP 代码和普通代码的条件编译。 A "#include " B "#pragma omp parallel" C "#ifdef _OPENMP" D "#define _OPENMP" 我的答案:C 6. 利用cache line 一次读取多个数据字的机制优化程序访存性能,其机理是____。 A 降低了访存延迟 B 隐藏了访存延迟 C 利用了cache 空间局部性 D 利用了cache 时间局部性 我的答案:C 7. 有大量分支指令的程序不适合下面哪种体系结构上进行并行化? A SISD B SIMD C SPMD D MIMD 我的答案:B 8. CPU cache 大小为32KB,如希望(单精度浮点数)矩阵乘法计算过程中所有数据都驻留cache 中,则矩阵大小最大为 A 16*16 B 32*32 C 64*64 D 128*128 我的答案:C 9. pthread_join 的第二个参数的作用是____。 A 设置指定线程属性 B 获取指定线程属性 C 向指定线程传递参数 D 获取指定线程函数返回结果 我的答案:D 10. 在分布式内存架构编程中,进程间不能____。 A 进行通信 B 进行同步 C 发送和接收消息 D 通过读写变量交换数据 我的答案:D 11. 关于OpenMP 循环并行程序的编写,下列说法中正确的是____。 A 程序员需要编写线程创建和管理代码 B 程序员需要编写循环划分代码 C 程序员需要编写调度策略代码 D 程序员只需指出对哪个循环进行并行,循环划分和调度策略是什么 我的答案:D 12. 在SSE intrinsics 程序中双精度浮点数数据类型是____。 A __m128 B __m128f C __m128d D __m128i 我的答案:C 13. 在使用条件变量之后必须对其进行____。 A 初始化 B 加锁 C 解锁 D 销毁 我的答案:D 14. 采用搜索分解设计15 数码问题的并行算法,不包含下面哪个步骤____...