HRM-Text的相关内容 — 漫话开发者

近日，一款名为HRM-Text的新型文本生成模型在GitHub上开源，引发了AI社区的广泛关注。该模型基于HRM架构，参数规模为10亿（1B），但其最大的亮点在于惊人的训练效率。据项目介绍，HRM-Text的训练所需的计算资源和数据量仅为传统基础模型的130到600分之一和150到900分之一，这极大地降低了大规模语言模型预训练的门槛。具体来看，其6亿参数（0.6B）版本仅需在一个节点上的8块NVIDIA H100 GPU上训练约50小时，成本约为800美元；而10亿参数（1B）版本则可在两个节点共16块H100 GPU上训练约46小时，成本约1472美元。这一成果意味着，过去只有科技巨头才能负担得起的模型预训练工作，现在对于更多学术机构和小型研究团队而言变得触手可及。HRM-Text不仅通过高效的任务完成能力得到了增强，还利用了潜在空间推理技术，有望在保持生成质量的同时，大幅降低能耗和资源消耗，推动AI模型的民主化进程。

周刊订阅 - Newsletter

开源|HRM-Text：1B参数文本生成模型，训练成本仅为传统模型的几百分之一

核心要点