谷歌发布Gemini Embedding 2:首个统一多模态嵌入模型,支持超百种语言
thinkindev • 2026-03-11
8527 views
谷歌近日正式推出了其新一代多模态嵌入模型Gemini Embedding 2,标志着人工智能在跨模态语义理解领域迈出了关键一步。该模型通过Gemini API和Vertex AI平台提供服务,其核心突破在于首次将文本、图像、视频、音频及文档(如PDF)的向量表示统一到同一个语义空间中,并支持超过100种语言。技术上,Gemini Embedding 2采用了Matryoshka Representation Learning(嵌套表示学习),允许开发者根据具体应用场景灵活调整输出向量的维度,在保证核心语义信息的同时优化计算与存储效率。模型具备强大的处理能力,单次可处理多达8,192个文本标记、6张图像、120秒视频或6页PDF文档。目前,早期访问用户已将其应用于检索增强生成(RAG)和复杂语义搜索等场景,初步反馈显示其性能在多模态任务上超越了现有竞争对手。这一模型的发布,不仅为构建更智能、更通用的AI应用提供了强大的底层支持,也预示着多模态AI正从单一感知走向深度融合与统一理解的新阶段。
核心要点
- 谷歌推出Gemini Embedding 2模型,首次实现文本、图像、视频、音频和文档在统一语义空间中的向量表示。
- 模型支持超100种语言,并采用Matryoshka表示学习技术,允许自定义输出维度以平衡性能与效率。
- 早期应用显示其在RAG和语义搜索任务中表现优异,已获开发者用于构建下一代多模态AI应用。