模型训练的相关内容 - 漫话开发者

2024-06-03 talkingdev

muP：提升稀疏模型训练性能的革命性工具

muP 是一种被所有前沿模型实验室广泛使用的强大工具，用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型，从而显著提升训练性能，同时降低计算成本。通过muP，研...

2024-05-28 talkingdev

深度学习框架Tinygrad 0.9.0正式发布。Tinygrad是一个轻量级的深度学习框架，支持Python和JavaScript。Tinygrad 0.9.0增加了对自定义函数的支持，以及其他一些性能和稳定性的改进。它的设计使其非常适合在边缘设备上...

2024-05-16 talkingdev

近日，EfficientTrain++推出了一种新颖的课程学习策略，显著减少了主要视觉模型如ResNet和Swin在ImageNet数据库上的训练时间。据悉，这种新的学习策略最多可以将模型训练时间缩短三倍。EfficientTrain++的这一突破不...

2024-05-13 talkingdev

语言模型依赖于单独训练的标记生成器。这些标记生成器可能会产生在语言模型训练过程中从未见过的标记。即使在最强大的现代语言模型中，也存在许多此类标记。本文探讨了这种现象，并提出了识别和处理这些标记的方法。...

2024-05-02 talkingdev

Reka是一家专业训练大型基础模型的公司，尽管资金规模只是顶级玩家的一小部分，但其发展速度却迅速赶超了一些业界最佳参与者。近日，Reka发布了其内部评估套件Vibe-Eval的一个子集，该套件被用于确定其模型的强度。...

2024-05-01 talkingdev

Nvidia最近发布了一个新的工具包，可以对CUDA状态进行检查点设置，以便于传输和重启。这一工具包在GitHub上公开，对于大型AI模型的分布式训练非常有用。CUDA状态的检查点设置可以在训练过程中保存模型的状态，以便在...

2024-04-29 talkingdev

本文展示了链式思考（CoT）可以通过'...'代币进行混淆。这需要训练模型，但表明可能无法解读CoT步骤，模型可以隐藏思考过程。链式思考是一种新兴的人工智能技术，通过模拟人类思考过程，提高机器学习模型的决策质量...

2024-04-28 talkingdev

微软近日发布了一组用于训练BitNet风格模型的GPU加速内核。这些模型在准确度上没有明显下降的情况下，大大降低了内存消耗。BitNet风格模型是一种新型的深度学习模型，它的特点是使用1.58位的数据表示方法，比传统的3...