量化的相关内容 - 漫话开发者

2024-07-05 talkingdev

PTQ4SAM：用后训练量化使SAM更实用

PTQ4SAM是一个新的框架，旨在减少大规模Segment Anything Model（SAM）的内存和计算需求。SAM是一个全新的大规模模型，但其大规模的特性也使得其在实际应用中面临着严峻的挑战，尤其是在内存和计算资源上的需求。而P...

2024-06-29 talkingdev

近日，一款基于Python的量化金融工具包正式发布。该工具包提供一系列用于金融数据分析、建模和交易的工具和算法，包括股票和期货的回测、策略优化、风险管理等功能。该工具包支持多种数据源和交易平台，并提供了丰富...

2024-05-31 talkingdev

随着大型语言模型性能的提升，其对能源和计算能力的渴求也随之增加。为降低成本，提高处理速度，同时减少对环境的影响，模型需要实现更小型化。研究人员目前采用一种名为量化的技术，通过减少模型参数的精度来压缩网...

2024-05-09 talkingdev

QoQ，一种新型量化算法，通过使用4位权重、8位激活和4位KV缓存，加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术，它能够减少模型的存储需求和计算复杂性。在这种情况下，QoQ算法采用了较低精度的数...

2024-05-01 talkingdev

Meta发布了一款名为ExecuTorch的框架，这是一个后训练量化工具包，能够支持在各种iPhone和Galaxy设备上运行Llama模型。该框架能够在运行7B大小语言模型的手机上，每秒获取多达11个令牌。ExecuTorch框架的发布，进一...

2024-04-30 talkingdev

近日，一款名为Mistral.rs的LLM推理平台在GitHub上备受关注。它可以支持多种设备上的推理，支持量化，并且具有易于使用的应用程序，带有OpenAI API兼容的HTTP服务器和Python绑定。无论是在深度学习推理、设备兼容性...

2024-04-03 talkingdev

AutoQuant 笔记本是一个新的工具，它可以将 HuggingFace 上的模型导出为五种不同的量化格式，包括 GGUF、GPTQ、EXL2、AWQ 和 HQQ。这些量化格式旨在优化模型的性能和效率，以便在不同的硬件和平台上部署。通过使用 A...

2024-04-03 talkingdev

Lightning Whisper MLX是一款针对苹果硅芯片优化的Whisper语音识别算法的高速实现版本。它采用批量解码技术以提高吞吐量，运用蒸馏模型以加快解码速度，并引入量化模型以加速内存传输。相较于传统的Whisper CPP，Lig...