[论文推荐]上海研究团队推出DiTorch与DiComm框架,实现异构芯片集群高效训练百亿级AI模型
thinkindev • 2025-06-11
6528 views
上海科研团队最新发布的DiTorch和DiComm技术框架,突破了AI训练对同构硬件的依赖。该创新通过统一编程接口整合NVIDIA、AMD等异构芯片架构,在1,024块规格差异显著的芯片集群上训练千亿参数模型时实现116%的超线性效率。其核心技术在于智能调度算法——将内存密集型计算阶段自动分配至大容量内存硬件,使老旧芯片、廉价设备甚至受出口管制的计算单元都能组成"超异构集群"。这一突破显著降低了前沿AI研究的硬件门槛,允许研究机构利用现有混合设备开展大规模训练,对全球AI算力生态可能产生结构性影响。相关论文已发布于arXiv预印本平台。
核心要点
- 首创异构芯片统一编程框架DiTorch/DiComm,支持NVIDIA/AMD等混合架构协同计算
- 在1,024块异构芯片上训练千亿模型实现116%超线性效率,突破硬件限制
- 智能调度算法自动优化内存分配,使老旧/受限芯片可组成高效训练集群