系统极客一直在努力
专注操作系统及软件使用技能

Gemini Embedding 2 发布:Google 首款原生多模态嵌入模型

Gemini Embedding 2

Google 基于 Gemini 架构打造的首款全能型原生多模态嵌入模型——Gemini Embedding 2 正式发布。它可以将文本、图像、视频、音频和文档,毫无障碍地映射到同一个向量空间中,让跨媒介的检索与分类变得轻而易举。

  • Gemini Embedding 2 能够精准捕捉超过 100 种语言的语义意图,将五花八门的数据类型统统装进一个统一的嵌入空间。
  • 这一突破不仅大幅简化了繁杂的数据处理管线,更为检索增强生成(RAG)、语义搜索、情感分析以及数据聚类等海量下游任务注入了强劲动力。

Gemini Embedding 2 主要特性

全新模态支持与灵活的维度扩展

依托 Gemini 顶级的多模态理解能力,该模型能够跨越多种媒介,生成高质量的向量表示:

  • 文本:支持高达 8192 个输入 Token,轻松应对超长上下文。
  • 图像:单次请求最多可并行处理 6 张图片,全面支持 PNG 和 JPEG 格式。
  • 视频:最高支持输入 120 秒的 MP4 或 MOV 格式视频。
  • 音频:支持原生音频数据的吞吐与嵌入,彻底告别繁琐的「语音转文字」中间环节。
  • 文档:可直接嵌入长达 6 页的 PDF 文件。

除此之外,它不仅能「单线程」处理单一模态,还原生支持「交错输入」。你可以将图文混排等多模态数据一次性喂给模型。通过这种方式,Gemini Embedding 2 能够敏锐捕捉不同媒介之间微妙而复杂的关联,从而对真实世界的数据产生更精准的认知。

延续了前代模型的优良传统,Gemini Embedding 2 同样引入了「俄罗斯套娃表示学习」(Matryoshka Representation Learning, MRL)技术。该技术通过动态缩减维度来实现信息的「嵌套」,允许开发者在默认的 3072 维基础上灵活调低输出维度,从而在性能表现与存储成本之间找到完美平衡。

为了保证极致的输出质量,Google 建议采用 3072、1536 或 768 维度。

SOTA 性能表现

Gemini Embedding 2 不仅仅是对旧有模型的常规迭代,它直接为多模态深度理解树立了全新的性能标杆。除了引入强悍的语音处理能力,它在文本、图像和视频任务上的表现,均全面超越了目前的行业头部模型。

Gemini Embedding 2 基准测试
Gemini Embedding 2 基准测试

这种立竿见影的性能飞跃与独一无二的跨模态覆盖面,是开发者应对复杂嵌入需求时的理想利器。

赞(0)
分享到

评论 抢沙发