训练效率的相关内容 - 漫话开发者

2023-09-27 talkingdev

LAION推出OpenLM：中等规模模型的新选择

OpenLM是一个专为训练最多可达70亿参数的中等规模语言模型设计的库和框架。它的设计理念是注重GPU速度和可修改性。作为收敛性验证，已经有在1.25T标记上训练的模型可供使用。这种新型的框架和库能够更好地满足中等规...

2023-08-29 talkingdev

Prompt2Model是一种新颖的系统，它通过自然语言任务描述来训练一个小型的专用模型，非常适合于部署。这种系统的出现，使得模型训练过程更加人性化，用户只需要用自然语言描述任务，系统就可以根据描述内容进行训练。...

2023-08-17 talkingdev

本文将深入探讨热门的《transformer数学101》文章，以及基于transformer架构的高性能分布式训练。变形金刚模型已经在深度学习领域广泛应用，其强大的处理能力和优异的性能表现赢得了业界的一致好评。然而，对于这种...

2023-08-17 talkingdev

强化学习可能是当前对齐大型语言模型（甚至视觉模型）最好的工具。然而，当你需要大量的人类数据来训练一个奖励模型时，这就成为了一项挑战。如果你可以只使用“提示”呢？这是RLCF（强化学习计算框架）趋势的又一绝佳...

2023-07-21 talkingdev

近日，苹果公司发布了一款新的深度学习库AX，该库基于Jax构建。值得一提的是，AX支持基于编译器的并行性，可实现大规模训练，这是许多其他流行框架所不具备的功能。在过去的几年中，深度学习领域的研究和应用取得了...

2023-06-14 talkingdev

研究人员提出了竞争性基准测试系统"AlgoPerf"，旨在公平评估各种深度学习算法的训练效果，并为未来的改进奠定基础。这一研究解决了比较和改进深度学习训练算法的挑战，这些算法是加速数据处理、节省资源和创建准确模...

2023-05-22 talkingdev

HuggingFace发布了新的研究成果，使得在普通硬件上能够完成对65B参数模型的微调。这项研究使得量化技术不再局限于推理阶段，而是可以应用于训练过程中，从而大幅减少了模型所需空间。以下是该研究的三个核心点： -...

2023-04-18 talkingdev

以下是新闻主要内容： - Cerebras-GPT是一种计算优化的语言模型系列，通过利用高效的预训练、扩展和最大更新参数化，展示了先进的预训练和下游目标的训练效率。 - 作为第一个比较计算优化的模型扩展的开放和可重现...