指令遵循新纪录!Qwen3.5-Plus以76.5分刷新行业标准

AI小智
阿里巴巴于2026年发布了新一代开源大模型Qwen3.5-Plus,标志着中国在通用人工智能技术上的突破。Qwen3.5-Plus在IFBench评测中以76.5分刷新了全球指令遵循能力纪录,超越了主流闭源模型如Gemini 3 Pro和GPT-5.2。模型采用“稀疏激活”架构,尽管总参数量高达3970亿,但实际激活参数仅为170亿,显著提高了计算效率并降低了训练成本。Qwen3.5-Plus在认知推理、协同决策和工具调用方面表现优异,显示出系统级智能体架构的成熟。这一发布不仅提升了模型性能,也推动了开源生态体系的构建,降低了智能服务的准入门槛。

在2026年2月17日,阿里巴巴于除夕夜发布其最新一代开源大模型Qwen3.5-Plus,这一举措不仅标志着中国在通用人工智能领域技术突破的加速,更重新定义了开源模型在指令遵循能力上的行业标准。该模型以76.5分的成绩在IFBench评测中创下新纪录,成为目前全球所有公开模型中指令遵循能力最强的代表。这一分数超越了Gemini 3 Pro与GPT-5.2等主流闭源模型,尤其在复杂多步任务、模糊语义解析和上下文依赖推理方面展现出显著优势。

值得注意的是,尽管模型总参数量高达3970亿,但其实际激活参数仅为170亿,这种“稀疏激活”架构的设计,使得计算资源利用效率大幅提升。在保持高性能的同时,实现了训练成本与推理能耗的显著降低,这为大规模部署提供了现实可行性。这一技术路径的成熟,预示着未来大模型的发展方向将不再单纯依赖参数规模堆叠,而是转向更精细的结构优化与动态计算机制。

在认知推理层面,Qwen3.5-Plus在MMLU-Pro评测中取得87.8分,超过当前已知最先进模型GPT-5.2;在博士级难题GPQA测试中达到88.4分,虽略低于GPT-5.2的92.4分,但在同类开源模型中已遥遥领先。这表明其在专业领域知识整合、逻辑链推演与跨学科问题解决方面具备接近人类专家的能力。尤其在面对非标准表述或需要多轮迭代思考的任务时,模型展现出更强的语义理解与意图识别能力。

更深层地看,该模型在通用智能体(BFCL-V4)与搜索代理(Browsecomp)评测中的表现同样亮眼,其在协同决策、工具调用与环境交互中的稳定性与效率均优于Gemini 3 Pro与GPT-5.2。这并非简单的性能叠加,而是反映了系统级智能体架构的成熟——从单一任务响应迈向自主规划、状态管理与外部工具集成的闭环能力。

此次发布的不仅是单个模型的升级,更是一套完整的开源生态体系的构建。通过将高阶能力与低成本部署结合,阿里正推动大模型从实验室走向真实应用场景。当一个拥有顶尖指令遵循能力的模型能够在边缘设备或中小企业服务器上实现高效运行,意味着此前由少数科技巨头垄断的智能服务门槛被实质性打破。这种“性能跃升与成本骤降”的同步发生,正在重塑全球AI竞争格局。

科技分享

397B大模型也能轻装上阵?Qwen3.5-Plus显存占用大降

2026-2-26 15:32:31

科技分享

多语言+强推理!Qwen3.5-Plus覆盖201种语言全场景

2026-2-26 16:00:47

搜索