concurrent kernel and dynamic parallelism

concurrent kernel

废话少说,上图

  • 显而易见,when the source was adequate,
  • different kernel in different streams without data dependence
  • can be executing concurrent, save time and improve kernel level parallelism

dynamic parallelism

pic

  • 引入 “父子” 概念,这个可以类似面向对象编程类的继承
  • CUDA 支持两级嵌套
  • 提高性能
    • 在内核开始执行前,将内核所需的数据结构初始化。需在cpu 端做这件事
    • 可以减少递归
  • 内存模型
    • 父子 kernel or grid 共享 global and constant memory
    • 各自有自己的local memory 和 shared memory
  • 设备运行的时候 创建的 stream and event,只能在创建它们的线程块中使用。