Skip to the content
Chuanqiz’s blog
点此搜索
点此查看导航
友情链接
Welcome
Search
友情链接
Welcome
对于异构计算的几个优化点
2020年6月15日
计算掩盖IO的延迟
例如 像 transpose 这种访存相关的操作,我们通过对一个特殊的矩阵乘,进行一次转换,达到transpose的结果,而非从片外存储中,来进行load。
矩阵分块与合并
进行与硬件的规格相匹配,例如GPU 中 warp的概念(32 thread 同步执行),shared memory 这种可编程的存储。
计算与load/store流水起来,减少气泡的等待
充分利用dsp资源,如果有效利用率达到80%以上,那么就已经很成功了。
机器学习
上一篇文章
再见 阿里巴巴
下一篇文章
函数调用以及栈帧指针