微软刚推出了三款全新的 Phi-3.5 系列开源 AI 模型,包括 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。这些模型是对 Phi-3 系列的扩展和延伸,进一步丰富了微软的人工智能产品线。
这些模型涵盖了从基础推理到高级图像与视频分析等多种任务需求。接下来,本文将对这些模型的技术规格和性能进行详细介绍。
Phi-3.5 已经上线 Ollama 模型库,方便快速本地部署。
Phi-3.5-mini-instruct:紧凑型高效模型
Phi-3.5-mini-instruct 拥有 38 亿参数,专为计算资源有限的环境设计,擅长代码生成、数学问题解决和逻辑推理等任务。它支持 128K Token 的上下文长度,在 RepoQA 基准测试中超越了同等级的 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。该模型通过 512 个 H100 GPU 训练了 3.4 万亿 Token,树立了长上下文代码理解的新标准。
- 参数:38 亿
- 架构:纯 Transformer 解码器
- 上下文长度:128K Token
- 训练数据:3.4 万亿 Token
- 训练基础设施:512 个 H100-80G GPU
- 训练时长:10 天
Phi-3.5-mini-instruct 尽管参数较少,但表现优异,是资源受限环境下的理想选择。
Phi-3.5-MoE-instruct:混合专家架构
Phi-3.5-MoE-instruct 采用了混合专家(MoE)架构,将多个专家模型集成到一个系统中。该模型拥有 420 亿参数,但在处理任务时仅激活 66 亿参数,既确保了高效计算,又具备可扩展性。它同样支持 128K Token 的上下文长度,在代码、数学和多语言理解等推理任务中表现卓越,尤其在 RepoQA 和 5-shot MMLU 等基准测试中持续优于更大型的模型。
- 活跃参数:66 亿(2 个专家)
- Tokenizer:32K 词汇量
- 上下文长度:128K Token
- 训练数据:4.9 万亿 Token(含 10% 多语言数据)
- 训练基础设施:512 个 H100-80G GPU
- 训练时长:23 天
此外,Phi-3.5-MoE-instruct 支持多种语言,包括:
- 欧洲语言:英语、法语、德语、西班牙语、意大利语等
- 亚洲语言:中文、日语、韩语、泰语
- 中东语言:阿拉伯语、希伯来语、土耳其语
- 斯拉夫语言:俄语、乌克兰语
MoE 架构让模型在推理过程中只激活部分参数,实现高效运算,同时仍能利用大规模参数空间。
Phi-3.5-vision-instruct:多模态专长
Phi-3.5-vision-instruct 集成了文本和图像处理能力,在图像理解、光学字符识别、图表与表格分析,以及视频摘要等任务中表现出色。它支持 128K Token 的上下文长度,尤其适用于复杂的多帧视觉任务。该模型使用 256 个 A100 GPU 训练了 5000 亿 Token,在 MMMU、MMBench 和 TextVQA 等基准测试中均表现优异。
- 参数:42 亿
- 组件:图像编码器、连接器、投影器、Phi-3.5-Mini 语言模型
- 训练数据:5000 亿 Token(视觉和文本)
- 训练基础设施:256 个 A100-80G GPU
- 训练时长:6 天
Phi-3.5-vision-instruct 结合了视觉和语言处理能力,能够高效处理文本与图像输入,适用于复杂的视觉推理和多模态理解任务。
Phi-3.5 系列开源与许可
以上三款 Phi-3.5 系列模型均已在 Hugging Face 平台开放下载,并采用 MIT 许可证。
最新评论
停止并禁用 rsyslog 服务即可,但并不推荐: sudo systemctl stop rsyslog sudo systemctl disable rsyslog
可否出一期关闭ubuntu系统日志功能。
。。。
Windows 11 安装好后,OOBE 时配置的帐户本身就在 Administrators 组,只有在「设置」中添加的默认才是普通帐户。