
VAND 挑战赛是国际视觉异常检测领域最具影响力的竞赛之一,依托 CVPR 大会平台,已连续举办 4 届,吸引了来自全球学术机构与工业界的顶尖团队参与。
2026 年 6 月,在计算机视觉领域顶级会议 CVPR 2026 举办的 VAND 4.0(Visual Anomaly and Novelty Detection)挑战赛中,由中科慧远牵头的 dinovision 团队,在零售异常检测赛道(Retail Track, Kaputt 2)斩获两项大奖:
Best Performance(最佳性能冠军)——从全球参赛队伍中脱颖而出,以最高检测精度登顶排行榜
Best Paper / Jury Prize(最佳论文奖)——在 OTS 零样本赛道以创新方案获评委一致认可
这是继去年 VAND 3.0 夺冠之后,中科慧远团队连续第二年蝉联该项赛事最高荣誉,充分展现了中科慧远在视觉缺陷检测领域的持续技术领先优势。

VAND 4.0 @ CVPR 2026 官方排行榜
VAND 4.0 卫冕成功,双奖加冕
VAND 挑战赛是国际视觉异常检测领域最具影响力的竞赛之一,依托 CVPR 大会平台,已连续举办 4 届,吸引了来自全球学术机构与工业界的顶尖团队参与。今年 VAND 4.0 设置了工业缺陷检测(MVTec AD 2)和零售商品缺陷检测(Retail Kaputt 2)两大赛道,其中零售赛道基于包含超过 23 万张图像、涵盖 4.8 万种商品 的 Kaputt 大规模数据集,涉及 7 类缺陷类型,是当前最具挑战性的视觉缺陷检测基准之一。
零售赛道设置两个独立评估方向:
Regular Setting(常规有监督赛道):允许使用训练数据与参考图像,考验模型精度极限
Off-the-Shelf VLM Setting(OTS 零样本赛道):仅允许使用预训练视觉语言模型,禁止任何权重微调,考验零样本泛化能力
技术方案亮点
方案一:多模型集成与半监督学习——最佳性能冠军
团队提出了基于大模型的三阶段检测框架:
阶段一:监督微调:对三种骨干网络进行渐进式解冻微调,有效避免灾难性遗忘
阶段二:数据增强:通过双置信度阈值的半监督伪标签策略安全利用噪声参考图像,同时引入多任务学习辅助头强化缺陷特征表征
阶段三:融合推理:融合四种模型变体的预测,配合 56 视图(7 尺度 × 8 几何变换)测试时增强、参考图像余弦相似度评分及排序融合策略
最终成绩:AP 90.84%,AUROC 94.76%,从全球参赛队伍中脱颖而出,荣获「最佳性能冠军」
方案二: 零样本 VLM 集成方案——最佳论文奖
团队创新性地提出了一套完全零样本的异常检测方案,无需任何训练数据和参考图像:
利用开源视觉语言模型 :针对零售场景的多种缺陷模式精心设计五类差异化提示词策略,引导模型进行多角度零样本损伤评估
提出采样前置信度评分机制:在 VLM 生成最终回答之前,直接获取模型对各严重等级的内部置信度分布,将其转换为连续的缺陷概率分数,解决了传统方案中离散输出无法用于连续排序评估的根本难题
构建多维度集成策略:多提示词 × 多尺度× 多几何变换 × 跨模型融合,配合配置筛选保留最优组合,并通过小裁剪过滤抑制低质量图像的误报
最终成绩:AP 61.83%,新颖的方案设计获得了评委的一致认可,获得「最佳论文奖」

质检案例图示: 各子图中,左上角为待测检索图像,其余三幅为参考样本。参考样本存在位姿变化、正反面朝向差异、包装样式不一致问题,部分样本附带缺陷。
深耕工业视觉检测,聚力产学研创新
本次 OTS 赛道的优异成绩,源自中科慧远深耕具身「质」造的长期技术积淀。团队自研 VLM 差异检测技术与具身质检机器人 CASIVIBOT 深度协同,以具身智能为底座,开创单图即定义的工业质检新范式——仅需一张正常样本,轻量级 VLM 即可快速理解外观并精准检出缺陷,无需海量样本与训练等待。
目前,VLM 模型差异检测技术已在刀具、包装盒、小电机等外观缺陷检测场景稳定落地。相较传统方案数周的样本收集与模型训练周期,零训练样本方案依托具身「质」造快速适配、敏捷切换的核心优势,实现快速启动、即时换型,完美匹配多品种小批量柔性产线的敏捷生产需求。
作为国内领先的智能光学检测与纳米级前道半导体装备厂商,中科慧远聚焦「AI+先进制造」,以仿人灵活观察成像技术与感知方法、复杂场景下缺陷的高精度检测 AI 算法为核心,聚焦于人工智能产业链下游高端工业视觉智能检测装备的研发与生产。目前,公司构建了「高精度专机 + 通用具身质检机器人」的全场景产品矩阵,已服务国内外五十余家行业龙头企业。
VAND 4.0 的卫冕成功,不仅是技术实力的体现,更彰显了中科慧远在产学研深度融合模式下的持续创新能力。未来,团队将继续推动前沿视觉检测技术的产业化应用,为智能制造与工业具身提供更高精度、更强泛化能力的检测解决方案。
来源:互联网



