模型规模的相关内容 - 漫话开发者

2024-07-22 talkingdev

论文：词汇规模的扩展定律新研究

根据最新的研究，更大规模的模型需要更大的词汇表。这项研究探讨了词汇规模的扩展定律，揭示了模型规模和词汇大小之间的关系。随着模型规模的增大，词汇表的规模也需要相应扩大。这是因为大型模型需要处理更多的情境...

2024-06-20 talkingdev

近日，一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布，其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息，其性能和效率都达到了非常高的水平。这些模...

2024-03-20 talkingdev

近期研究表明，人工通用智能（AGI）的发展可能并未如预期那般顺利。尽管投入了更多的资源，像GPT-4这样的大型语言模型（LLMs）却表现出硬件扩展的极限，收益递减的现象。这意味着，随着模型规模的扩大，其性能提升的...

2024-03-18 talkingdev

Cappy是一款小型模型，专门设计用于接收指令和候选完成，然后为完成度打分，以衡量其完成指令的程度。在这项任务上，Cappy的表现超越了许多更大的模型，这表明它可能作为训练和生成过程中的一个反馈机制。Cappy的成...

2024-03-13 talkingdev

最近，一种基于Mamba竞争对手的DNA序列预测模型被开发出来。这个模型不仅非常高效，而且拥有强大的预测能力，而且模型规模非常小。目前，该模型已经在DNA测序领域得到了广泛的应用。

2023-10-05 talkingdev

最近的研究表明，为ViTs注册器添加[reg]标记可以修复图像注意力映射的突增。这项工作表明，将一系列可学习的[pause]标记预置到序列中可以提高语言模型推理（仅解码器，最高可达10亿）的能力，最多可提高18%。直观上...

2023-04-18 talkingdev

OpenAI首席执行官Sam Altman表示，孵化ChatGPT的研究策略已经过时，进一步的进展不会来自于模型变得更大。模型规模的扩大存在着收益递减，而公司可以建立和维护的数据中心数量也受到物理限制。目前尚不清楚OpenAI将...