
Google 基于 Gemini 架构打造的首款全能型原生多模态嵌入模型——Gemini Embedding 2 正式发布。它可以将文本、图像、视频、音频和文档,毫无障碍地映射到同一个向量空间中,让跨媒介的检索与分类变得轻而易举。
- Gemini Embedding 2 能够精准捕捉超过 100 种语言的语义意图,将五花八门的数据类型统统装进一个统一的嵌入空间。
- 这一突破不仅大幅简化了繁杂的数据处理管线,更为检索增强生成(RAG)、语义搜索、情感分析以及数据聚类等海量下游任务注入了强劲动力。
Gemini Embedding 2 主要特性
全新模态支持与灵活的维度扩展
依托 Gemini 顶级的多模态理解能力,该模型能够跨越多种媒介,生成高质量的向量表示:
- 文本:支持高达 8192 个输入 Token,轻松应对超长上下文。
- 图像:单次请求最多可并行处理 6 张图片,全面支持 PNG 和 JPEG 格式。
- 视频:最高支持输入 120 秒的 MP4 或 MOV 格式视频。
- 音频:支持原生音频数据的吞吐与嵌入,彻底告别繁琐的「语音转文字」中间环节。
- 文档:可直接嵌入长达 6 页的 PDF 文件。
除此之外,它不仅能「单线程」处理单一模态,还原生支持「交错输入」。你可以将图文混排等多模态数据一次性喂给模型。通过这种方式,Gemini Embedding 2 能够敏锐捕捉不同媒介之间微妙而复杂的关联,从而对真实世界的数据产生更精准的认知。
延续了前代模型的优良传统,Gemini Embedding 2 同样引入了「俄罗斯套娃表示学习」(Matryoshka Representation Learning, MRL)技术。该技术通过动态缩减维度来实现信息的「嵌套」,允许开发者在默认的 3072 维基础上灵活调低输出维度,从而在性能表现与存储成本之间找到完美平衡。
为了保证极致的输出质量,Google 建议采用 3072、1536 或 768 维度。
SOTA 性能表现
Gemini Embedding 2 不仅仅是对旧有模型的常规迭代,它直接为多模态深度理解树立了全新的性能标杆。除了引入强悍的语音处理能力,它在文本、图像和视频任务上的表现,均全面超越了目前的行业头部模型。

这种立竿见影的性能飞跃与独一无二的跨模态覆盖面,是开发者应对复杂嵌入需求时的理想利器。















最新评论
终于找到了,很实用,感谢作者
怎么没有最新发布的
1.从 2025 年 10 月 14 日及之后发布的 Windows 安全更新开始,为了防止 NTLM 凭据泄露,微软对「下载文件」默认禁用了预览面板。你可以右键点击该文件,在「属性」>「常规」选项卡中,勾选「解锁」。 2.使用 Microsoft Edge 查看和标注 PDF。
WIN11更新后原先PDF文件可以预览 ,更新完成后无法进行预览,是那个更新导致的,有那位高手知道吗?