Transformer的相关内容 - 漫话开发者

2024-03-13 talkingdev

Transformer Debugger: 为小型语言模型提供自动可解释性技术支持

Transformer Debugger是一种工具，它通过将自动可解释性技术与稀疏自动编码器相结合，支持对小型语言模型的特定行为进行调查。

2024-02-26 talkingdev

Stability AI宣布推出Stable Diffusion 3，这是一款类似于OpenAI的Sora的Diffusion Transformer。公司训练了一套模型，参数范围从8亿到80亿，这是从以前的图像生成模型中跨越式的飞跃。这些模型将在经过一段时间的研...

2024-02-23 talkingdev

Google已经发布了其Gemma 2B和7B参数模型的权重，可通过HuggingFace获得。这些模型是仅解码器的Transformer，训练了2T和6T个令牌。它们在各种基准测试中都比Llama 2表现出色，并提供基础和指令调整版本。

2024-02-22 talkingdev

GitHub上发布了一个名为“Flexible Vision Transformer”的仓库，该架构设计用于创建任意分辨率和纵横比的图像。与传统模型不同，FiT将图像视为变量大小的标记序列，在训练和推理过程中更有效地适应不同的图像大小。这...

2024-02-21 talkingdev

近日，一种新的Temporal Dilated Video Transformer (TDViT)技术被发布，旨在提高稠密视频任务的分析能力，如逐帧视频对象检测。该技术采用多头自注意力机制，可进行多层次、多尺度的特征提取，同时利用空间和时间的...

2024-02-21 talkingdev

KV缓存的量化是Transformer架构的一个技术细节，它使其在推理时使用更少的内存。量化是在最小损失质量的情况下缩小浮点精度。

2024-02-14 talkingdev

Lag-Llama是一种基于Transformer的模型，可在零样本和少样本泛化方面表现出色，并在广泛的时间序列数据上进行了预训练。通过对少量数据进行微调，它超越了现有深度学习方法的最新性能，标志着时间序列分析基础模型的...

2024-02-13 talkingdev

近日，Point Transformer V3（PTv3）发布了，这是一个简单而高效的3D点云处理模型。与注重复杂设计的模型不同，PTv3通过注重规模和效率，实现了更快的处理速度和更好的内存效率。该模型在GitHub上开源，让广大科技爱...