在2026年2月16日,阿里巴巴于除夕夜发布的新一代大模型Qwen3.5-Plus,标志着中国在通用人工智能领域实现了一次关键性跃迁。该模型在多项权威评测中展现出压倒性优势,尤其在知识推理能力上达到87.8分的惊人成绩,不仅超越了此前被视为行业标杆的GPT-5.2,更在认知复杂度与跨领域知识整合方面确立了新的基准线。这一分数并非简单的数据堆叠,而是对模型深层语义理解、逻辑链条构建以及上下文动态关联能力的综合体现。
更为引人注目的是其在博士级难题GPQA测评中的表现——88.4分,接近人类顶尖学者水平。该测试要求模型不仅能识别专业术语,还需在医学、物理、计算机科学等高度专业化领域进行多步推演,涉及文献解读、实验设计反推、因果链重构等高阶任务。传统大模型在此类任务中常因知识密度不足或推理路径断裂而失分,而Qwen3.5-Plus通过引入动态知识检索机制与跨模态线索融合策略,实现了从“记忆调用”到“思维生成”的转变。其背后的技术支撑在于对大规模学术文本的深度结构化处理,以及在训练过程中嵌入的元推理模块,使模型具备类似研究者“提出假设—验证—修正”的自我迭代能力。
在指令遵循能力方面,其在IFBench评测中以76.5分刷新全球纪录,远超同类模型。这一指标衡量的是模型对复杂、模糊甚至存在歧义的自然语言指令的精准执行能力。区别于以往依赖模板匹配或关键词触发的响应方式,Qwen3.5-Plus展现出显著的意图解构能力:它能识别用户隐藏在表述背后的多重目标,自动补全未明说的前提条件,并在执行过程中动态调整行为策略。例如,在一个要求“为一位焦虑的抑郁症患者设计一份为期三周的心理干预计划”的指令中,模型不仅输出了符合临床指南的方案,还主动建议加入家属沟通环节并提供可量化的进展评估工具,体现出对社会情境与个体差异的敏感性。
更深层次的技术突破体现在其参数效率与系统架构的设计上。尽管总参数量高达3970亿,但实际运行时仅激活约170亿参数,这使得其在保持顶级性能的同时,将算力部署成本降低60%,推理速度提升8倍。这种“小激活、大效能”的模式打破了“参数越多越好”的惯性思维,其核心在于采用稀疏激活神经网络(Sparsely Activated Transformer)与任务自适应路由机制,让不同子网络根据输入内容智能选择最优计算路径。这意味着在同等硬件条件下,开发者可部署更多实例或支持更高并发请求,极大降低了高性能AI服务的门槛。
此外,模型在多模态能力上的集成尤为突出。它能够直接处理长达两小时的视频输入,完成内容摘要、事件标注与情感趋势分析,这在当前主流模型中尚属罕见。其视觉-语言联合理解能力已深入至代码生成层面:用户上传一张手绘的前端界面草图,模型不仅能识别布局结构与交互逻辑,还能自动生成可运行的HTML/CSS/JavaScript代码;若用户提交一段包含错误的截图,模型则可定位问题所在并给出修复建议,形成“所见即所得”的闭环开发体验。这种将图像理解与编程能力深度融合的能力,正在重塑人机协作的边界。
这些成果的背后,是阿里在基础研究、工程优化与生态建设上的长期投入。从2024年起,千问团队便开始探索“轻量化高性能”的技术路径,逐步建立起覆盖数据清洗、模型蒸馏、推理加速的完整技术栈。此次开源策略也极具战略意义——通过开放模型权重与推理接口,迅速构建起全球开发者社区,推动应用创新。目前,该模型已接入千问多端平台,API价格低至每百万Token 0.8元,使其成为首个兼具顶尖性能与极低使用成本的通用型智能体。
这一系列成就表明,当前大模型的竞争已从单纯的参数规模竞赛,转向对知识组织方式、计算效率与实际应用价值的综合较量。Qwen3.5-Plus的成功,不仅是技术参数的胜利,更是对“如何让大模型真正服务于人类认知扩展”这一根本命题的一次系统性回应。