小米大模型团队受 DeepSeek-R1 启发,登顶音频推理 MMAU 榜

在2025年3月公布的MMAU音频理解评测榜单中,一个名为Qwen2-Audio-7B的模型以64.5%准确率刷新纪录。这一成绩不仅超越OpenAI的GPT-4o近10个百分点,更值得关注的是其仅通过3.8万条训练样本、7B参数量级和一周训练周期便实现了技术跃迁。该模型背后的小米大模型团队揭示了一个关键认知:当强化学习机制被引入多模态音频理解领域,机器的听觉能力可能突破传统监督式训练的瓶颈。

MMAU评测集作为音频推理领域的”终极考场”,设计了27类复杂推理任务。从识别汽车座舱异响的潜在故障,到分析交响乐片段中的作曲家情绪,再到预测地铁闸机口脚步声中的冲突风险,这些需要人类专家82.23%准确率的任务,长期由GPT-4o保持57.3%的领先水平。小米团队突破的核心在于将DeepSeek-R1的Group Relative Policy Optimization(GRPO)算法迁移至音频领域,构建起”试错-奖励”的强化学习框架。这种机制允许模型通过生成多样化假设并接收实时反馈,而非依赖海量标注数据进行填鸭式训练。

实验数据揭示出两个反直觉现象:首先,使用清华大学AVQA数据集进行全量监督微调(SFT)时,模型准确率仅从49.2%提升至51.8%;但应用GRPO算法后,同等数据量却带来12.7个百分点的飞跃。其次,当强制模型输出显性推理过程时,准确率反而下降3.4个百分点,这与常规思维链(Chain-of-Thought)方法的效果相悖。这些发现暗示,音频推理可能更依赖隐式的关联构建,而非显式的逻辑推演。

技术实现层面,团队采用三阶段训练策略:先用基础音频数据集建立初级感知能力,再通过多轮对话数据增强上下文理解,最终在强化学习框架下完成复杂推理能力的突破。这种分层训练机制使得7B参数模型在计算资源消耗仅为GPT-4o的1/20时,仍能保持高效推理能力。开源代码显示,其注意力机制专门针对音频时序特征进行优化,能够捕捉声学事件之间的长程依赖关系。

该突破的实际价值不仅体现在榜单排名,更在于验证了小规模模型通过算法创新实现能力跨越的可能性。在车载语音系统误唤醒率降低、智能家居设备情境理解等场景中,这种高效率的音频推理模型展现出落地潜力。随着训练代码和模型参数的开源,行业或将迎来新一轮音频大模型的轻量化竞赛,这对端侧智能设备的进化具有催化作用。

科技分享

ChatGPT 周活超 4 亿,OpenAI 推新工具再掀波澜

2025-3-14 9:48:54

科技分享

百川智能联合创始人焦可、陈炜鹏被曝离职创业

2025-3-18 11:20:24

搜索