大模型评估国际标准发布,中国信通院牵头引领!

中国信通院牵头制定的ITU-T F.748.44大模型评估国际标准于2025年3月正式发布,这是全球首个针对大模型基准测试的权威标准。该标准明确了四大核心要素:

  1. 测试体系:涵盖测试场景、能力、任务和指标,规范了通用大模型的评估流程,并提供标准化测试用例。
  2. 技术支撑:基于对全球500余项基准测试的研究,整合600万条数据集,开发了FactTeting自动化测试工具。
  3. 产业影响:已对OpenAI、DeepSeek、百度文心等上百个国内外大模型开展周期性评测,覆盖语言、推理、多模态等10+能力维度。
  4. 动态监测:自2024年起每两个月发布一次评测结果,持续追踪如Claude 3.7、Gemini 2.5 Pro等前沿模型的性能演进。

这一标准填补了全球大模型评估的空白,使不同厂商的测试结果具有可比性,预计将推动行业技术研发投入增长30%以上,加速AI技术在医疗、政务等领域的合规落地。

科技分享

GPT-4即将退役!GPT-4o全面接棒,性能大跃升?

2025-4-12 11:00:38

科技分享

龙坤智创以智狐AI-MAX为核心驱动企业数字化转型与AI生态构建

2025-4-12 11:25:50

搜索