模型训练的相关内容 - 漫话开发者

2024-02-05 talkingdev

AI2发布全面开放的开放语言模型OLMo

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-02-02 talkingdev

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。

2024-02-02 talkingdev

Weaver是一系列专门用于讲述故事的模型。最大的模型（34B参数）在故事讲述基准测试中表现优于GPT-4。

2024-02-01 talkingdev

使用较低精度的模型训练速度更快、更便宜，但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上，提供易于阅读和可修改的代码，实现浮点8训练。

2024-02-01 talkingdev

在训练语言模型时，一个挑战是为任务找到足够多样化的数据集。更难的是，将这些数据可视化。这个很酷的工具使用快速聚类和主题建模，使得可以探索数据，以改善过滤和整体质量。

2024-01-31 talkingdev

Meta的新模型已经在大量代码上进行了精调和指令调整。它们在HumanEval测试中表现出色，在某些方面接近于GPT-4。这些模型可在Meta许可下和HuggingFace上使用。

2024-01-26 talkingdev

研究人员探索了一种名为异步Local-SGD的新的语言模型训练方法。这种方法是联邦平均的一种变体。

2024-01-23 talkingdev

机器学习工程开源书籍发布，该项目是一个开放的方法论集合，旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令，以使读者能够快速解决问题。该...