网站地图官方微信:
网站首页 暖泉镇 甘南县 鸡笼镇 伏口镇 丁当镇 拉揽乡

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 都说苹果是细节狂魔,那苹果有没有细节其实做的很差的点? |

    苹果在开发工具上,过于高估了开发者的网络环境。 下载一个上...

    查看详情>>
  • | 网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗? |

  • | 055万吨驱逐舰是不是有些被过于神化了,有没有了解的大佬详细解释一下? |

  • | ***《凡人修仙传》有哪些令人伤感的情节? |

  • | 匿名说说你最近的烦心事吧!? |

  • | 如果苹果真的下架了微信的话,会发生什么? |

  • | 男医生在给年轻靓丽的女性检查时会是什么心态? |

  • | 字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平? |

  • | 核武器最小当量能做到多少? |

  • | 黑客为什么可以做到无需知道源码的情况下找出系统漏洞? |

  • | 有哪些让你目瞪口呆的 Bug ? |

  • 我先放一个暴论: 如果稳定币法案最终成功推行,特朗普的历史地...

    2025-06-20
  • 先说结论,不是 再说为啥 1.虽然东风41能覆盖米利坚,但是...

    2025-06-20
  • 那自然是刘亦菲打枪图: 这颜值,这发量,这腰身,这曲...

    2025-06-20
  • 我不是 IT,也不负责做企业级别应用,但是我们会做一些小型的...

    2025-06-20

关注我们

添加微信好友,关注最新动态