1.CUDA 寄存器是由()。A. Grid 中所有线程共享B. 一个 Block 中所有线程共享C. 一个 Warp 中所有线程共享D. 每个线程独享答案:D2.SIMD 并行化时遇到对齐问题,高效的处理方法是()。A. 直接使用 SIMD 不对齐访存指令B. 将数据拷贝到对齐的内存地址C. 重写算法保证对齐访问D. 串行处理到对齐边界,然后进行 SIMD 对齐访存答案:D3. 使用一个信号量实现“主线程等待 4 个从线程完成任务”,信号量初始值应设置为()。A. 0B. 1C. 2D. 4答案:A4. 对这样的循环 for(i=0;i<100;i+=1)A[i+0]=A[i+0]+B[i+0];进行向量化,基本技术手段是()。A. 循环划分B. 循环消除C. 循环展开D. 以上皆错答案:C5.0penMP 能实现的是()。A. 避免数据竞争B. 提供任务划分策略C. 确保加速D. 确保降低通信开销答案:B6. MPI_Send 和 MPI_recv 是通过()区分消息。A. 端口号B. 消息名C. 消息标签D. 消息哈希答案:C7. 伸缩性的含义不包括()。A. 硬件能升级扩展B. 扩大系统规模构造成本增长不快C. 程序在新硬件下仍能高效运行D. 程序在更大规模系统下仍能高效运行答案:A8.在下面问题中,SIMD 并行更适合()。A. 搜索B. 排序C. 矩阵乘法D. 构建二叉排序树答案:C9•以下超级计算机中,()不是 SIMD 架构。A. CDCSTAR-100B. 757C. 银河D. 天河 1 号答案:D10•对于效率 E,下面描述错误的是()。A. 理想并行 E=1B. 总是在 0〜1 之间C. 可能>1D. 可能随着处理器数量增大趋向于 0答案:B11.SSEintrinsics_mm_store_sd 命令的功能是()。A. 对齐向量存单精度浮点数B. 未对齐向量存单精度浮点数C. 对齐标量存双精度浮点数D. 未对齐标量存双精度浮点数答案:C12.和一对多广播对应的组通信操作是()。A. 多对一收集B. 多对多收集C. 多对一归约D. 多对多归约答案:C13.对一个串行程序进行 SIMD 并行化,应重点考虑的程序部分是()。A. 声明语句B. 条件分支语句C. 循环语句D. 输入输出语句答案:C14.若 SIMD 并行化时遇到对齐问题,下列说法正确的是()。A. 只能使用不对齐访存指令B. 不能进行 SIMD 并行化C. 对齐开销可能完全抵消 SIMD 并行收益D. 以上皆错答案:C15. 使用()无法直接实现“主线程唤醒 4 个从线程去执行任务”。A. 1 个信号量B. 障碍C. 1 个互斥量D. 4 个互斥量答案:C16. 在使用条件变量时,还需配套使用一个()。A. 互斥量B. 信号量C. 障碍D. 自旋锁答案:A17....