开源|突破显存限制：开发者实现单张RTX 3090运行Llama 3.1 70B，NVMe直连GPU绕过CPU

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量高达700亿的Llama 3.1模型。这一技术尝试源于开发者对复古游戏和硬件实验的兴趣，其提出的核心问题是：能否绕过CPU/RAM，让GPU直接连接NVMe来运行Transformer模型？该项目作为该问题的实践答案，通过C++/CUDA编写，展示了在有限显存硬件上部署超大模型的新思路。虽然目前是“周末氛围编程”的成果，且在专业GPU上可能有更好表现，但它为边缘计算、低成本AI部署打开了新的可能性，预示着模型推理优化正从纯算法层面深入到系统级IO架构的创新。