PTQ4SAM是一个新的框架,旨在减少大规模Segment Anything Model(SAM)的内存和计算需求。SAM是一个全新的大规模模型,但其大规模的特性也使得其在实际应用中面临着严峻的挑战,尤其是在内存和计算资源上的需求。而P...
Read More近日,一款基于Python的量化金融工具包正式发布。该工具包提供一系列用于金融数据分析、建模和交易的工具和算法,包括股票和期货的回测、策略优化、风险管理等功能。该工具包支持多种数据源和交易平台,并提供了丰富...
Read More随着大型语言模型性能的提升,其对能源和计算能力的渴求也随之增加。为降低成本,提高处理速度,同时减少对环境的影响,模型需要实现更小型化。研究人员目前采用一种名为量化的技术,通过减少模型参数的精度来压缩网...
Read MoreQoQ,一种新型量化算法,通过使用4位权重、8位激活和4位KV缓存,加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术,它能够减少模型的存储需求和计算复杂性。在这种情况下,QoQ算法采用了较低精度的数...
Read MoreMeta发布了一款名为ExecuTorch的框架,这是一个后训练量化工具包,能够支持在各种iPhone和Galaxy设备上运行Llama模型。该框架能够在运行7B大小语言模型的手机上,每秒获取多达11个令牌。ExecuTorch框架的发布,进一...
Read More近日,一款名为Mistral.rs的LLM推理平台在GitHub上备受关注。它可以支持多种设备上的推理,支持量化,并且具有易于使用的应用程序,带有OpenAI API兼容的HTTP服务器和Python绑定。无论是在深度学习推理、设备兼容性...
Read MoreAutoQuant 笔记本是一个新的工具,它可以将 HuggingFace 上的模型导出为五种不同的量化格式,包括 GGUF、GPTQ、EXL2、AWQ 和 HQQ。这些量化格式旨在优化模型的性能和效率,以便在不同的硬件和平台上部署。通过使用 A...
Read MoreLightning Whisper MLX是一款针对苹果硅芯片优化的Whisper语音识别算法的高速实现版本。它采用批量解码技术以提高吞吐量,运用蒸馏模型以加快解码速度,并引入量化模型以加速内存传输。相较于传统的Whisper CPP,Lig...
Read More