开源|字节跳动Lance：3B参数原生统一多模态模型，图像视频理解与生成编辑全搞定

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型，以其仅3B（30亿）激活参数的设计，在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务（如图像理解、视频生成、图像编辑等）分别训练的局限，通过一个从头开始训练的单一架构，实现了对图像和视频的理解、生成与编辑三大核心功能的统一。这种“原生统一”的设计理念，意味着模型的核心架构在多任务之间共享，潜在地提升了学习效率和跨模态的泛化能力，而非简单地将多个独立模型拼接。3B的参数量级也使其在部署效率和性能之间取得了良好平衡，为边缘计算或实时应用场景提供了可能性。Lance的开源，不仅为研究社区提供了一个强大的基线模型，也预示着多模态AI正向更通用、更高效的方向演进，有望加速在创意内容生成、智能视频剪辑、视觉问答等领域的创新应用。