漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-09-20 talkingdev

CuPy:为GPU量身定制的NumPy和SciPy替代品

CuPy是一个基于GPU的数组库,旨在为高性能计算提供与NumPy和SciPy兼容的API。它的设计使得用户能够在GPU上高效地执行数值计算,从而显著提升计算速度。CuPy采用了CUDA编程模型,支持多种GPU加速功能,包括矩阵运算、...

Read More
2024-08-08 talkingdev

LibreCUDA - 在GPU上启动CUDA代码且无需运行时

近日,开源社区推出了一款名为LibreCUDA的软件,可以在Nvidia GPU上启动CUDA代码,而无需专有运行时。这个软件是一个开源项目,由来自西班牙和台湾的开发者共同创建,并受到了Nvidia公司的支持。LibreCUDA的目标是为...

Read More
2024-07-16 talkingdev

在AMD GPU上无需修改即可运行CUDA

NVIDIA的CUDA是一种广泛使用的GPU编程框架,但是它只能在NVIDIA GPU上运行。然而,一家名为Nek5000的研究团队近日发现了一种方法,在AMD GPU上运行未经修改的CUDA代码。他们使用了名为“ROCm”,即Radeon开放计算平台...

Read More
2024-07-16 talkingdev

SCALE工具包发布:GPU编程新纪元

Spectral Compute公司近日推出了SCALE——一个通用并行图形处理单元(GPGPU)编程工具包。SCALE的主要创新之处在于它能够使得使用CUDA语言编写的程序原生编译运行在AMD的GPUs上。这个工具包接受现有的CUDA程序代码,作...

Read More
2024-05-13 talkingdev

Hazy研究推出全新CUDA内核DSL——ThunderKittens

Hazy研究团队最新推出一款名为ThunderKittens的CUDA DSL,旨在帮助开发者更简单、更高效地编写CUDA内核。据了解,该团队已经用这款新工具编写了flash attention模块,结果表明其运行速度比原版本快了30%,而且仅需10...

Read More
2024-05-01 talkingdev

QUICK:加速LLM的新CUDA内核开源

QUICK是一套新的优化CUDA内核,通过解决内存问题,提升了大型语言模型的效率。这导致了NVIDIA GPU上的显著速度提升,使AI模型运行更快,效率更高。QUICK的出现,无疑为AI领域带来了新的可能性,通过优化内存处理方式...

Read More
2024-05-01 talkingdev

Nvidia推出CUDA-checkpoint工具包:助力分布式训练大型AI模型

Nvidia最近发布了一个新的工具包,可以对CUDA状态进行检查点设置,以便于传输和重启。这一工具包在GitHub上公开,对于大型AI模型的分布式训练非常有用。CUDA状态的检查点设置可以在训练过程中保存模型的状态,以便在...

Read More
2024-04-09 talkingdev

用C/CUDA语言训练大型语言模型,无需依赖PyTorch

近期,Andrei Karpathy推出了一个名为llm.c的项目,该项目展示了如何使用C和CUDA编程语言来训练大型语言模型(LLM)。这一创新方法避免了对PyTorch等大型深度学习框架的依赖,尤其是其所需的250MB以上的资源。这种训...

Read More
2024-03-26 talkingdev

谷歌、英特尔和ARM联手挑战英伟达AI芯片霸主地位

由英特尔、谷歌、ARM、高通、三星等科技公司组成的统一加速(UXL)基金会,正在开发开源软件,旨在避免AI开发者受限于英伟达的专有技术。这一举措意味着,未来AI开发将有更多的选择,不必完全依赖英伟达的生态系统。...

Read More
2024-03-25 talkingdev

NVIDIA的CUDA构筑了难以逾越的竞争壁垒

NVIDIA公司通过控制GPU和CUDA平台,形成了其在市场上的独特优势。CUDA简化了开发者从NVIDIA硬件中获益的过程,这一优势的确立得益于NVIDIA在CUDA生态系统上多年的投资和数十亿美元的投入。尽管未来可能会有竞争者项...

Read More
  1. Next Page