系统极客一直在努力
专注操作系统及软件使用技能

微软发布新一代 Phi-4-multimodal 和 Phi-4-mini 模型

Phi

微软为 Phi 模型家族推出了两款全新的小型语言模型(SLM)——Phi-4-multimodalPhi-4-mini,旨在为开发者提供更高级的 AI 能力,助力创新。

Phi-4-multimodal能够同时处理语音、视觉和文本,这种多模态能力为开发上下文感知和创新型应用程序提供了无限可能。而Phi-4-mini则专注于文本处理任务,凭借其高精度和可扩展性的特性,在精简的架构中展现了强大性能。

这两款模型现已在 Azure AI FoundryHuggingFace 和 NVIDIA API Catalog 全面上线。特别是Phi-4-multimodal的功能已全面集成到 NVIDIA API Catalog,开发者可以轻松通过这些平台探索其全部潜能并自由尝试。

Phi-4-multimodal 模型简介

Phi-4-multimodal是一个具备 5.6B 参数多模态语言模型,将语音、视觉和文本处理无缝整合到一个统一的架构当中。

通过利用先进的跨模态学习技术,Phi-4-multimodal实现了更加自然且注重语境的交互表现,支持在处理多种输入模态(如语音、图像和文本)时同步理解和推理。不论是解读语音内容、分析图像,还是处理文本信息,都能提供高效、低延迟的推断结果,同时优化了设备端运行的性能,显著降低了计算资源占用。

为多模态体验而生

Phi-4-multimodal是一个整合了多种 LoRA 混合机制的单一模型,能够在同一表征空间中同时处理语音、视觉和文本输入。这样一来,无需复杂的处理流程,也无需针对不同模态使用独立的模型,它就能完美完成多模态任务。

该模型基于全新的架构设计,以提升效率和扩展性为目标。它采用更大规模的词汇表以支持更精准的处理,同时具备多语言能力,能够将语言推理与多模态输入无缝融合。精简的架构让其拥有出色的便携性和高效率,非常适合在设备端或边缘计算平台上运行。

解锁全新能力

Phi-4-multimodal能同时处理视觉和语音输入,性能卓越。下图展示了该模型在视觉内容任务(以合成语音形式输入的图表/表格理解和文档推理任务)中的表现。与现有其他支持语音与视觉信号输入的最先进通用模型相比,它在多个基准测试上都表现出色。

Phi-4-multimodal 语音和视觉任务基准测试结果
Phi-4-multimodal 语音和视觉任务基准测试结果
  • Phi-4-multimodal在语音相关任务中展现了卓越的能力,在自动语音识别(ASR)和语音翻译(ST)方面超越了Whisper-V3SeamlessM4T-v2-Large等专业模型。
  • 在 HuggingFace OpenASR 排行榜上,它凭借 6.14% 的单词错误率(WER)位居榜首,领先于 2025 年 2 月前的最高纪录 6.5%。
  • 此外,它是少数几个成功实现语音摘要并在性能上接近GPT-4o的开源模型之一。不过,在语音问答(QA)任务上,与竞争对手如Gemini-2.0-FlashGPT-4o-realtime-preview相比,由于参数规模较小,让它在保留事实性 QA 知识方面稍显不足。
Phi-4-multimodal 语音任务基准测试结果
Phi-4-multimodal 语音任务基准测试结果

尽管参数规模仅有 5.6B, Phi-4-multimodal 在多种视觉相关基准测试中展现了卓越的能力,尤其是在数学与科学推理任务中表现突出。它还在通用多模态任务(如文档和图表理解、光学字符识别(OCR)和视觉科学推理)中保持了竞争力,甚至在部分任务中超越了类似模型,如Gemini-2-Flash-lite-preview和 Claude-3.5-Sonnet

Phi-4-multimodal 视觉任务基准测试结果
Phi-4-multimodal 视觉任务基准测试结果

Phi-4-mini 模型简介

Phi-4-mini是一款拥有 3.8B 参数的密集型、仅包含解码器的 Transformer 模型。它集成了分组查询注意力(Grouped-Query Attention)、20 万词汇表以及共享的输入输出嵌入,其设计重点集中在速度优化和效率提升。

尽管规模紧凑,但在文本相关任务上,Phi-4-mini依然能够超越许多参数更大的模型,在推理、数学、代码生成、指令遵循和函数调用等领域表现卓越。

此外,它支持最长 128K Token 的序列处理,具备高精度和出色的可扩展性,是满足高级 AI 应用需求的强大解决方案。

Phi-4-mini 语言任务基准测试结果
Phi-4-mini 语言任务基准测试结果

函数调用与增强功能

函数调用、指令遵循、长上下文支持以及推理能力,是像Phi-4-mini这类紧凑型语言模型得以突破自身容量限制、获取外部知识和功能的关键能力。通过标准化的协议,函数调用让模型能够无缝集成到结构化的编程接口中。当用户发出请求时,Phi-4-mini可以通过推理分析查询内容,识别并调用相关函数,同时为其传递适当参数,接收函数输出,再将这些结果整合到生成的响应中。

这种能力创造了一种可扩展的智能体(Agentic-Based System)模式,通过与外部工具、应用程序接口(API)及数据源的连接,模型的功能可以通过明确定义的函数接口得到进一步增强。


总体来看,Phi-4-multimodalPhi-4-mini这两款模型为开发者提供了更多选择和灵活性。无论是在多模态应用还是高效文本处理方面,它们都展现了出色的性能和潜力,为未来的 AI 应用开发开辟了新的道路。

赞(0)

评论 抢沙发