Programming Massively Parallel Processors》(大规模并行处理器编程实战)

  • 会写Kernel函数。
  • 懂得如何利用 Shared Memory 减少显存访问。
  • 理解 Thread Warp Divergence(线程束分歧)怎么拖慢速度。
  • 基本线性代数运算库 (BLAS):简单的矩阵乘法(GEMM),先用CPU写三层循环,再用AVX优化,最后用CUDA搬到GPU上优化。