AI小智
中国信通院制定的国际标准ITU-T F.748.44针对大模型评估,于2025年3月发布,成为全球首个权威标准。标准涵盖测试体系、技术支撑、产业影响和动态监测四大核心要素,规范了模型评估流程,并开发了自动化测试工具FactTeting。已对全球多个大模型进行周期性评测,覆盖多种能力维度,并每两个月发布评测结果,追踪前沿模型性能。该标准填补评估空白,提升测试结果可比性,预计推动行业研发增长30%及AI技术合规落地。
中国信通院牵头制定的ITU-T F.748.44大模型评估国际标准于2025年3月正式发布,这是全球首个针对大模型基准测试的权威标准。该标准明确了四大核心要素:
- 测试体系:涵盖测试场景、能力、任务和指标,规范了通用大模型的评估流程,并提供标准化测试用例。
- 技术支撑:基于对全球500余项基准测试的研究,整合600万条数据集,开发了FactTeting自动化测试工具。
- 产业影响:已对OpenAI、DeepSeek、百度文心等上百个国内外大模型开展周期性评测,覆盖语言、推理、多模态等10+能力维度。
- 动态监测:自2024年起每两个月发布一次评测结果,持续追踪如Claude 3.7、Gemini 2.5 Pro等前沿模型的性能演进。
这一标准填补了全球大模型评估的空白,使不同厂商的测试结果具有可比性,预计将推动行业技术研发投入增长30%以上,加速AI技术在医疗、政务等领域的合规落地。