一个SSE 寄存器可容纳____个短整型数
A 2 B 4 C 8 D 16 我的答案:C 2
采用划分子矩阵技术优化矩阵乘法CUDA 程序,子矩阵数组变量声明应加___前缀
A __global__ B __device___ C __shared__ D __private__ 我的答案:C 3
起泡排序改为奇偶转置排序,消除了循环步间的数据依赖的原因是____
A 增大了元素比较距离 B 减小了元素比较距离 C 改为元素两两分组比较 D 消除了元素比较 我的答案:C 4
求解同一个问题的4 个并行算法的等效率函数分析结果如下,其中____的可扩展性最优
A Θ(plogp) B Θ(p^2) C Θ(p^2logp) D Θ(p^3) 我的答案:A 5
为防止编译器不支持OpenMP,应使用____实现OpenMP 代码和普通代码的条件编译
A "#include " B "#pragma omp parallel" C "#ifdef _OPENMP" D "#define _OPENMP" 我的答案:C 6
利用cache line 一次读取多个数据字的机制优化程序访存性能,其机理是____
A 降低了访存延迟 B 隐藏了访存延迟 C 利用了cache 空间局部性 D 利用了cache 时间局部性 我的答案:C 7
有大量分支指令的程序不适合下面哪种体系结构上进行并行化
A SISD B SIMD C SPMD D MIMD 我的答案:B 8
CPU cache 大小为32KB,如希望(单精度浮点数)矩阵乘法计算过程中所有数据都驻留cache 中,则矩阵大小最大为 A 16*16 B 32*32 C 64*64 D 128*128 我的答案:C 9
pthread_join 的第二个参数的作用是____
A 设置指定线程属性