上下文的相关内容 - 漫话开发者

2023-07-14 talkingdev

LongLlama - 聚焦变换器训练的开放源码模型（GitHub Repo）

聚焦变换器是一种有趣的检索策略，它使用对比学习来提高key和value的缓存使用。此方法已被证明可相对稳定地扩展到几十万个标记。然而，目前尚不清楚这种方法在大规模应用中的表现如何，或者是否受到其他长期上下文方...

2023-07-08 talkingdev

近日，InternLM在GitHub上公开了一款专为实际场景设计的基础聊天模型。该模型拥有7亿的参数，可广泛应用于各种实际场景，如客户服务、在线咨询等。InternLM的这款模型采用了先进的深度学习技术，能够理解和回应用户...

2023-07-03 talkingdev

最近，状态空间模型引起了广泛关注。它们作为一种潜在有用的模型替代方案而出现，通过避开Transformer的一些挑战性方面，同时保持性能。在这项工作中，Hyena模型被应用于DNA序列建模，并在23个任务中取得了改进。

2023-06-23 talkingdev

MPT是MosaicML推出的一系列语言模型。仅在推出几周内，其7B模型已经被下载了数百万次。这款全新的30B模型是在H100s上进行训练的，具备8000个上下文长度。它经过商业授权，甚至可以进行编码！该模型可以在单个A100上...

2023-06-19 talkingdev

本文讨论了几种加速大型语言模型（LLM）训练和推理的技术，以使用高达100K个输入令牌的大上下文窗口。这些技术包括：ALiBi位置嵌入，稀疏注意力，闪电注意力，多查询注意力，条件计算以及使用80GB的A100 GPU。

2023-06-06 talkingdev

最近，研究人员在文本转图像（T2I）领域中推出了一种新的方法，称之为“无需提示的扩散”。这种系统只依靠视觉输入生成图像，无需任何文本提示。其利用了一种称为“语义上下文编码器（SeeCoder）”的独特结构来解释参考...

2023-06-02 talkingdev

最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型，它可以在上下文中使用高达65k个标记。但是，使用这个模型进行推理非常缓慢。通过添加键/值缓存，我们可以将生成速度提高近10倍。 ## 内...

2023-06-01 talkingdev

## 新闻内容： OpenAI 的 CEO Sam Altman 分享了公司的路线图，其中包括以下亮点： - 推出更便宜、更快速的 GPT4 - 增加更长的上下文窗口 - 推出更精细的 API 和有状态的 API - 在 2024 年实现多模态 ## 三大要点：...