谷歌发布多模态开源模型Gemma 3n:支持文本、图像和音频输入
thinkindev • 2025-06-27
2568 views
谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n,该模型采用多模态设计,专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入,展现了强大的跨模态处理能力。为推广该模型,谷歌与AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth以及vLLM等多家知名科技公司达成合作,提供了数十种试用该模型的途径。这一发布标志着开源AI模型在多模态领域的重要突破,为开发者社区带来了更多创新可能。本文还提供了在macOS系统上设置和使用该模型的快速指南,方便开发者快速上手。Gemma 3n的推出预计将对AI应用开发、边缘计算和跨模态研究产生深远影响。
核心要点
- 谷歌发布多模态开源模型Gemma 3n,支持文本、图像和音频输入
- 模型专为设备端优化,与AMD、NVIDIA等多家科技公司合作推广
- 提供macOS系统上的快速设置指南,推动多模态AI应用发展