模型训练的相关内容 - 漫话开发者

2024-01-12 talkingdev

Unsloth轻量化库加速TRL上的模型

Unsloth是一个轻量化库，可加速语言模型的微调。它现在可以轻松地与TRL在常见的模型架构上配合使用。Unsloth库通过一个简单的API使得模型训练和微调更快速。它可以帮助从训练数据中自动学习、优化和微调模型，使得模...

2024-01-11 talkingdev

对于视觉转换器(ViTs)的显著进展，研究人员使用一种新的自我涌现令牌标记(STL)框架，提高了完全注意力网络(FAN)模型的鲁棒性。这种方法涉及训练FAN令牌标记器来创建有意义的补丁令牌标记，然后训练FAN学生模型。

2024-01-10 talkingdev

去年最好的编码模型之一是DeepSeek LLM。它在许多基准测试中接近GPT-3.5（即使它可能是3倍大小）。有关模型训练，令牌计数，模型架构等的信息已在技术报告中发布。DeepSeek LLM是一种基于语言模型的编码器，它使用自...

2023-12-25 talkingdev

Facebook发布了一组工具、资源和示例，用于使用Llama模型系列。该工具集可帮助深度学习从业人员更高效地进行模型训练和应用。Llama模型系列由Facebook AI Research开发，已被广泛用于计算机视觉领域。这个工具集将包...

2023-12-15 talkingdev

OpenAI与柏林出版商Axel Springer达成协议，将使用该出版商的内容来训练其生成式AI模型，并将最近由Axel Springer发布的文章添加到ChatGPT中。这项协议将使OpenAI的AI模型能够更好地理解新闻内容和语言，从而提高其...

2023-12-15 talkingdev

HyperRouter方法提高LLM训练效率。该方法通过动态调整路由器参数，进一步提高了大型语言模型训练的效率。

2023-12-15 talkingdev

Cerebras是一家人工智能训练芯片制造商，近日发布了一个在其系统上训练大型模型的框架，名为gigaGPT。该框架非常简单易用，不需要将大型模型分割成多个GPU和节点进行训练。

2023-12-13 talkingdev

近日，HuggingFace 发布了最新版本的 Transformers 4.36.0。此次更新新增了 Mistral 模型和 AMD 支持等多项功能。同时，safetensors 已成为默认设置。HuggingFace 的这次更新将为 AI 模型的开发和训练提供更加便利的...