大模型评估国际标准发布，中国信通院牵头引领！

AI小智

中国信通院制定的国际标准ITU-T F.748.44针对大模型评估，于2025年3月发布，成为全球首个权威标准。标准涵盖测试体系、技术支撑、产业影响和动态监测四大核心要素，规范了模型评估流程，并开发了自动化测试工具FactTeting。已对全球多个大模型进行周期性评测，覆盖多种能力维度，并每两个月发布评测结果，追踪前沿模型性能。该标准填补评估空白，提升测试结果可比性，预计推动行业研发增长30%及AI技术合规落地。

中国信通院牵头制定的ITU-T F.748.44大模型评估国际标准于2025年3月正式发布，这是全球首个针对大模型基准测试的权威标准。该标准明确了四大核心要素：

测试体系：涵盖测试场景、能力、任务和指标，规范了通用大模型的评估流程，并提供标准化测试用例。
技术支撑：基于对全球500余项基准测试的研究，整合600万条数据集，开发了FactTeting自动化测试工具。
产业影响：已对OpenAI、DeepSeek、百度文心等上百个国内外大模型开展周期性评测，覆盖语言、推理、多模态等10+能力维度。
动态监测：自2024年起每两个月发布一次评测结果，持续追踪如Claude 3.7、Gemini 2.5 Pro等前沿模型的性能演进。

这一标准填补了全球大模型评估的空白，使不同厂商的测试结果具有可比性，预计将推动行业技术研发投入增长30%以上，加速AI技术在医疗、政务等领域的合规落地。

大模型评估国际标准发布，中国信通院牵头引领！

GPT-4即将退役！GPT-4o全面接棒，性能大跃升？

龙坤智创以智狐AI-MAX为核心驱动企业数字化转型与AI生态构建

AI气候预测系统预警：2026年厄尔尼诺现象或将引发全球粮食危机

医疗 AI 遭遇寒流！诊断准确率与伦理争议双重考验

抖音接入豆包 AI，字节跳动推进超级 AI 生态战略

字节跳动进军AI智能眼镜，与供应商密谈！

全球首例AI立法争议：深度解析欧盟《人工智能法案》核心条款

GPT-5体验版正式发布，实时联网与三个月记忆功能重塑交互体验