微信扫码实时跟踪AI前沿
Hazy研究团队最新推出一款名为ThunderKittens的CUDA DSL,旨在帮助开发者更简单、更高效地编写CUDA内核。据了解,该团队已经用这款新工具编写了flash attention模块,结果表明其运行速度比原版本快了30%,而且仅需10...