Morph发布代码生成模型优化方案:投机解码速度提升3倍,低端GPU也能跑出162 tok/s
thinkindev • 2026-06-22
1441 views
Morph LLM近期发布了一系列针对开源代码生成模型的优化技术,旨在解决当前推理效率瓶颈。首先,团队通过训练一个专注于模型自身编码输出(而非通用互联网数据)的“起草模型”(drafter),在投机解码中取得了显著加速,最高实现3.07倍的推理速度提升。其次,针对NVIDIA和AMD等低成本GPU,Morph开发了一种自动化的“研究循环”(autoresearch loop),能够自动调优warp-decode等核心内核,在每块不到7000美元的硬件上将推理吞吐量从97 tok/s提升至162 tok/s。最后,在跨卡互联方面,Morph绕过了昂贵且受限的NVLink,利用普通TCP协议和定制内核,通过PCIe共享前缀缓存,使首个Token生成时间(TTFT)缩短了84%。这三项创新从模型层、内核层到互联层系统性地降低了代码生成推理的部署门槛,尤其对预算有限的开发者和企业具有重要意义。
核心要点
- 训练专用起草模型并基于模型自身的代码差异进行投机解码,实现3.07倍速度提升。
- 利用自动化研究循环在低成本GPU(如NVIDIA/AMD)上优化内核,将吞吐量提升至162 tok/s。
- 通过普通TCP和定制内核在PCIe上实现跨卡前缀缓存共享,避免使用昂贵的NVLink,TTFT降低84%。