[开源]Mobile-VideoGPT：轻量级多模态视频模型，参数不足10亿却支持边缘设备实时推理

近日，GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型，其参数量不足10亿（1B），却通过创新的双视觉编码器和令牌剪枝技术，实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备的高效视频处理提供了新的可能性。Mobile-VideoGPT采用双视觉编码器架构，能够同时处理不同模态的视觉信息，并通过令牌剪枝技术优化计算效率，显著降低了模型的计算开销。这种设计使得模型在资源受限的边缘设备上也能实现实时推理，为智能监控、移动AR/VR、自动驾驶等应用场景提供了更高效的解决方案。该项目的开源将加速轻量级视频模型在工业界的落地应用，推动边缘计算与AI技术的深度融合。