日本 AI 医疗系统暴重大漏洞!早癌筛查误诊率超 23% 遭紧急叫停

2023年10月,日本国立癌症研究中心与东京大学医学部联合开发的消化道早癌AI筛查系统,在进入大规模临床测试三个月后,因误诊率突破安全阈值被厚生劳动省紧急叫停。该系统在针对2.4万例内镜影像的回顾性分析中,对早期胃癌、食管癌的漏检率达到31.2%,对胰腺病变的误判率高达27.8%,远超日本医疗AI产品认证标准中规定的15%上限。这一事件不仅暴露了AI医疗系统的技术缺陷,更折射出医疗人工智能开发路径中的系统性风险。

临床数据显示,该AI系统在识别直径小于5mm的早期癌变灶时,敏感度仅为68.9%,远低于研发阶段公布的92.3%测试数据。东京大学医学工程研究所的逆向工程分析揭示,训练数据集存在严重的样本失衡问题——早期病例仅占数据总量的12%,且超过40%的阴性样本来自同一家区域医院。这种数据偏差导致模型在遇到少见形态的早癌病灶时,错误地将恶性征象归类为良性糜烂或炎症改变。更严重的是,系统开发过程中未建立有效的动态验证机制,研发团队仅采用静态的历史数据测试,忽视了实际临床环境中设备差异、影像质量波动等现实变量。

数据标注环节的缺陷加剧了系统风险。第三方审计发现,负责标注的23名初级医师中,有15人未取得日本消化内镜学会认证资格,标注一致性检验的Kappa值仅为0.48,属于中等偏低的可信度水平。在胰腺癌模块的训练数据中,存在8.7%的标注错误,将导管内乳头状黏液性肿瘤误标为慢性胰腺炎。这种系统性标注错误导致AI模型建立了错误的特征关联,当遇到真实世界中边界模糊的病变时,极易触发误判机制。

监管体系的滞后性在此次事件中暴露无遗。日本现行《医疗器械法》对AI医疗产品的审批,仍沿用传统三类医疗器械的审查标准,缺乏针对机器学习模型漂移特性的动态监管机制。涉事系统在获得“先驱性医疗技术”认定时,伦理审查委员会仅审核了算法原理和初期测试数据,未要求提供持续监测方案。这种监管真空导致存在缺陷的AI系统直接进入临床环节,直到积累足够多的误诊案例才触发干预机制。

该事件颠覆了“更多数据必然提升AI性能”的行业认知。研发团队在技术路线选择上过度追求模型复杂度,采用包含152层的深度神经网络,却忽视了医疗数据的特殊性质。临床专家指出,医学影像的细微差别往往存在于0.1mm级别的特征中,复杂的模型架构在追求全局特征时,可能弱化对关键细节的捕捉能力。早稻田大学医疗AI研究所的对比实验显示,当采用轻量化模型配合强化局部特征的训练策略时,对微小早癌的识别准确率可提升14.6%。

医疗AI开发范式的转型势在必行。京都大学医学部提出的“临床锚定开发法”值得借鉴,该方法要求在每个开发周期嵌入真实临床场景的压力测试,建立数据采集、模型训练、临床验证的闭环反馈系统。横滨市立大学附属医院的实践表明,通过引入多中心实时数据流和医生协同标注平台,能将AI系统的泛化误差降低至12%以下。这些探索为破解医疗AI的“实验室-临床场效落差”提供了新的技术路径。

科技分享

特斯拉 FSD V13 版争议上路!上海高架实测遇暴雨失效引发监管介入

2025-3-6 17:49:25

科技分享

谷歌 DeepMind 颠覆材料科学!AI 发现室温超导体将改变能源格局

2025-3-6 18:02:03

搜索