CVPR 2026主会议于6月7日正式落下帷幕,本届大会在奖项归属、数据基础设施发布以及人才格局三个方面释放出强烈信号,勾勒出计算机视觉领域正在发生的深刻变革。

在闭幕式揭晓的五大奖项中,Google DeepMind、伦敦大学学院与牛津大学联合团队的D4RT摘得最佳论文奖。该研究聚焦4D动态场景重建,在重建质量与计算效率之间取得了突破性平衡。这一结果也标志着牛津大学视觉几何组(VGG)继2025年凭VGGT获奖后,成功实现CVPR最佳论文的“背靠背”两连冠,显示出该实验室在三维视觉前沿的持续引领地位。

何恺明团队的ResNet与YOLO检测框架共同获得Longuet-Higgins时间检验奖,表彰其长达十年以上的深远影响。从2015年的残差网络到2016年的实时目标检测框架,这两项工作已成为计算机视觉工业级应用的基石,此次获奖是对其历史贡献的最高级别学术认可。

微软研究院与清华大学联合提出的TRELLIS.2斩获最佳学生论文奖。作为一个原生3D大模型,它能在17秒内生成超高精度的PBR(物理渲染)资产,将3D资产生成从“天级”压缩至“秒级”,被普遍视为3D生成领域的新标杆。此外,SAM 3D获最佳论文提名,NVIDIA的NitroGen获最佳论文荣誉提名,分别代表了3D重建与图像生成这两个最具活力的子方向。

与奖项同样引人注目的,是大规模数据集PhysInOne的发布。该数据集包含200万个视频、超过15万个动态3D场景,覆盖力学、光学、流体、磁学等71种物理现象,并提供完整的2D、3D、4D及文本标注。学界将其称为“视觉物理的ImageNet时刻”,因为它为世界模型和具身智能研究补上了一块长期缺失的数据基石。大会数据同时显示,视觉语言动作(VLA)相关论文数量同比增长5倍,世界模型论文增长3倍,具身智能正从单点探索进入系统性方法论构建阶段。前AlphaFold2核心成员Simon Kohl的Keynote演讲则进一步打通了从蛋白质设计到生成式AI的跨领域链路,让与会者看到视觉模型与生命科学深度交汇的巨大潜力。

闭幕日最出圈的讨论,却来自一群中国本科生的惊艳表现。两名本科生在半年内于CVPR、ICCV、ECCV等五大顶会上累计发表5篇论文;更有一位大三学生仅凭一块老旧的泰坦(Titan)GPU完成研究,成功获得本届CVPR最佳学生论文提名。这一“低配逆袭”的故事经多家科技媒体发酵后迅速引爆网络,在算力军备竞赛愈演愈烈的当下,击中了学术界的集体共鸣点,也让资源受限的高校学生看到了冲击顶会的可能性。

与此同时,中国科技巨头在本届CVPR上的存在感同样强烈。美团在现场正式开源了560B参数的LongCat MoE大模型,每次推理仅需激活约27B参数,在性能与效率间取得平衡,标志着其AI战略向基础模型层的纵深延伸。字节跳动则提出了HiFi-Inpaint图像修复新范式,着力解决高频细节恢复难题。这些成果与微软和清华的TRELLIS.2一起,共同构成了中国力量在CVPR舞台上的多维度亮相。

从D4RT的4D重建到PhysInOne的物理数据集,从中国本科生的泰坦逆袭到LongCat的开源浪潮,CVPR 2026清晰地表明:计算机视觉正在从“理解图像”的时代,大踏步迈向“理解世界”的时代。