LLMs的相关内容 - 漫话开发者

2024-02-19 talkingdev

论文：SLEB-剪枝冗余变压器块，加速大型语言模型

最近，研究人员提出了一种新方法，称为SLEB，可以通过剪枝冗余的变压器块来加速大型语言模型（LLMs）的训练和推理。该方法可以减少存储空间和计算成本，同时保持模型的准确性。SLEB通过自适应的剪枝技术来删除冗余的...

2024-02-15 talkingdev

近日，针对LLMs设计的结构化生成语言SGLang在GitHub上发布。SGLang的设计目的是为了帮助LLMs更加轻松地构建结构化的文本生成模型，从而加速生成文本的过程。SGLang采用了类似于HTML的标记语言来描述文本结构，同时支...

2024-02-14 talkingdev

DeepMind和南加州大学的研究人员开发出SELF-DISCOVER框架，该框架显著提高了LLM的推理能力，在类似GPT-4的模型任务中比传统方法提升了32%。这个两阶段的框架使得LLMs能够自主地形成和利用推理结构。这个进步代表了AI...

2024-02-09 talkingdev

一项新研究揭示了多模态大型语言模型（MLLMs）如GPT-4V的一个弱点：它们难以处理特定类型的图像-文本输入，从而导致错误。CorrelationQA是一个基准测试，旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

2024-01-30 talkingdev

LLMs from Scratch是学习如何从零开始构建语言模型的一组不完整但有前途的任务。该仓库提供了构建自然语言处理模型所需的基本知识，包括基础数学和机器学习理论，以及一些常见的语言模型架构和实现代码。通过完成这...

2024-01-21 talkingdev

AlphaCodium推出了一种新颖的方法来增强LLMs的代码生成能力。这种多阶段、基于测试的迭代过程显著提高了像GPT-4这样的模型在解决复杂编程问题时的准确性，如在CodeContests数据集上所展示的。

2024-01-16 talkingdev

Anthropic发布了一项非常有趣的研究，该研究有意将语言模型中的“睡眠短语”进行有害污染。研究发现，它无法将这种模型与用于生产模型的强大系统进行“对齐”。也就是说，一旦模型被污染，就无法使用当前的工具消除不良...

2024-01-11 talkingdev

SpeechAgents是一个多模态人工智能系统，能够以惊人的真实度模拟人类的交流。这个系统由多模态LLM支持，可以处理多达25个代理人。它可以通过模仿人类对话，包括连贯的内容、真实的节奏和表达丰富的情感，来创造戏剧...