Morph发布代码生成模型优化方案：投机解码速度提升3倍，低端GPU也能跑出162 tok/s

Morph LLM近期发布了一系列针对开源代码生成模型的优化技术，旨在解决当前推理效率瓶颈。首先，团队通过训练一个专注于模型自身编码输出（而非通用互联网数据）的“起草模型”（drafter），在投机解码中取得了显著加速，最高实现3.07倍的推理速度提升。其次，针对NVIDIA和AMD等低成本GPU，Morph开发了一种自动化的“研究循环”（autoresearch loop），能够自动调优warp-decode等核心内核，在每块不到7000美元的硬件上将推理吞吐量从97 tok/s提升至162 tok/s。最后，在跨卡互联方面，Morph绕过了昂贵且受限的NVLink，利用普通TCP协议和定制内核，通过PCIe共享前缀缓存，使首个Token生成时间（TTFT）缩短了84%。这三项创新从模型层、内核层到互联层系统性地降低了代码生成推理的部署门槛，尤其对预算有限的开发者和企业具有重要意义。