OpenMed突破:仅165美元训练覆盖25个物种的mRNA语言模型,CodnRoBERTa性能显著领先
thinkindev • 2026-04-02
1852 views
近日,OpenMed团队在Hugging Face平台发布了一项重要成果,展示了其构建的端到端蛋白质AI全流程。该流程涵盖了蛋白质结构预测、序列设计以及关键的密码子优化环节。研究团队对多种Transformer架构进行了深入的密码子级语言建模对比,发现CodonRoBERTa-large-v2模型表现最为突出,其困惑度低至4.10,与密码子适应指数(CAI)的斯皮尔曼相关系数达到0.40,性能显著超越了ModernBERT模型。在此基础上,团队将研究规模扩展至25个不同物种,仅用55个GPU小时便成功训练出四个可用于实际生产的模型,并构建了一个具备物种条件化能力的系统。这一系统是目前开源社区中独一无二的。该博客文章完整公布了所有实验结果、关键的架构决策细节以及可直接运行的代码,为计算生物学和AI驱动的药物设计领域提供了极具价值的开源工具和洞见。
核心要点
- OpenMed构建了覆盖结构预测、序列设计与密码子优化的端到端蛋白质AI流程。
- 在密码子建模对比中,CodonRoBERTa-large-v2以4.10的困惑度和0.40的CAI相关性显著优于ModernBERT。
- 研究扩展至25个物种,仅用55GPU小时训练出4个生产模型,并构建了独特的物种条件化系统。