大规模语言模型的相关内容 - 漫话开发者

2024-06-03 talkingdev

Conifer开源：显著提升LLM对复杂指令的理解能力

Conifer通过引入一个专门的数据集和渐进式学习方法，显著提升了大规模语言模型（LLM）对复杂指令的理解能力。该方法不仅能让LLM在处理复杂任务时表现得更为精准，还能有效减少错误率。专门的数据集涵盖了各类复杂指...

2024-05-31 talkingdev

Yuan 2.0-M32是一款具备40亿参数的专家混合模型，其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19，但其性能却接近后者。该模型在2万亿个token上进行了训练，展现出了令人惊讶的强大性...

2024-05-23 talkingdev

MedLFQA是一个全新的基准数据集，旨在提升大规模语言模型在医疗领域中长篇回答的事实准确性。该数据集通过提供高质量的训练数据，帮助改进语言模型的回答精度。与此同时，OLAPH框架通过自动评估和偏好优化，训练大规...

2024-05-01 talkingdev

Meta发布了一款名为ExecuTorch的框架，这是一个后训练量化工具包，能够支持在各种iPhone和Galaxy设备上运行Llama模型。该框架能够在运行7B大小语言模型的手机上，每秒获取多达11个令牌。ExecuTorch框架的发布，进一...

2024-04-20 talkingdev

近年来，随着人工智能技术的飞速发展，越来越多的金融机构开始将自然语言处理技术应用于金融市场分析中。在这方面，LLMs（大规模语言模型）无疑是最受关注的技术之一。LLMs是一种基于深度学习的自然语言处理技术，它...

2024-04-08 talkingdev

近期在GitHub上发布的ReFT（Representation Fine-Tuning）项目，为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比，ReFT在保持强大性能的同时，大大降低了成本。该方法通过精细化调整模型参数，使得在进...

2024-03-19 talkingdev

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2023-10-05 talkingdev

将大规模语言模型（LLMs）比作一个庞大且复杂的拼图，每一块拼图都代表一份知识。这篇论文研究了我们尝试改变其中一些知识碎片会发生什么情况。结果可能会导致整个拼图被破坏，或者使其变得模糊不清。知识编辑在LLMs...