漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-15 talkingdev

Meta如何优化广告推理服务以提高尾部利用率

近日,Meta在其机器学习推理服务的尾部利用率方面进行了优化,这些优化使得失败率减少了三分之二,计算效率提高了35%,并将p99延迟减半。这些增强功能确保Meta的广告投放系统可以在不需要额外资源的情况下处理增加的...

Read More
2024-07-10 talkingdev

论文:将系统2精炼为系统1:COT新思维链模型提升计算和推理效率

系统2模型是一种使用类似于思维链的方法,通过更多的测试时间计算来提升推理的模型。最新的研究发现,我们可以将这种行为提炼为一个系统1模型,使其运行速度更快,而准确性相似。系统1模型的主要优势在于其高效的运...

Read More
2024-06-21 talkingdev

LayerMerge:新方法提升神经网络效率

LayerMerge是一种新的方法,通过联合裁剪卷积层和激活函数来提高神经网络的效率。在神经网络中,卷积层和激活函数是最基本的两个组成部分,它们的有效组合和优化对于提升网络性能和效率至关重要。LayerMerge通过在网...

Read More
2024-06-14 talkingdev

Nvidia Warp:高性能GPU模拟和图形的Python框架

Nvidia Warp是一款用于高性能GPU模拟和图形的Python框架。它提供了一个简单易用的接口,可以快速地实现GPU加速的模拟和图形计算。Nvidia Warp内置了一系列高效的数学库和图形库,可以大大提高计算效率和图像渲染质量...

Read More
2024-06-12 talkingdev

论文:改变Transformers计算效率,用结构化矩阵替代密集层

当前,大多数用于Transformers的计算花费在线性层上。这项工作利用muP和Monarch矩阵构建了一个结构化表示,不仅减少了计算量,而且比原始的密集层拥有更好的扩展规则。这项技术可以提高计算效率,降低运算成本,为AI...

Read More
2024-06-06 talkingdev

MatMul突破性成果:无需矩阵乘法的高性能大型语言模型

研究人员发现了一种方法,可以在无需进行矩阵乘法(MatMul)的情况下,依然保持大型语言模型的强大性能,甚至在参数规模达到数十亿时仍然有效。这一突破性技术有望显著提高计算效率,减少资源消耗,并为未来的AI模型...

Read More
2024-06-04 talkingdev

Mamba-2:强大的状态空间模型发布第二版

Mamba团队发布了Mamba-2,这是他们强大的状态空间模型的第二个版本。Mamba-2在前一版本的基础上进行了多项改进,显著提升了模型的性能和稳定性。该团队还提供了一份详细的说明文档,详细介绍了Mamba-2的技术细节和具...

Read More
2024-05-31 talkingdev

论文:Yuan 2.0-M32,具备注意力路由的MOE专家混合模型

Yuan 2.0-M32是一款具备40亿参数的专家混合模型,其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19,但其性能却接近后者。该模型在2万亿个token上进行了训练,展现出了令人惊讶的强大性...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page