CVPR 2026闭幕：D4RT获最佳论文，中国本科生凭旧GPU引热议

CVPR 2026最佳论文由Google DeepMind的D4RT获得，牛津VGG连续两年夺冠，中国本科生用老旧GPU获提名。

CVPR 2026主会议于6月7日正式落下帷幕，本届大会在奖项归属、数据基础设施发布以及人才格局三个方面释放出强烈信号，勾勒出计算机视觉领域正在发生的深刻变革。

在闭幕式揭晓的五大奖项中，Google DeepMind、伦敦大学学院与牛津大学联合团队的D4RT摘得最佳论文奖。该研究聚焦4D动态场景重建，在重建质量与计算效率之间取得了突破性平衡。这一结果也标志着牛津大学视觉几何组（VGG）继2025年凭VGGT获奖后，成功实现CVPR最佳论文的“背靠背”两连冠，显示出该实验室在三维视觉前沿的持续引领地位。

何恺明团队的ResNet与YOLO检测框架共同获得Longuet-Higgins时间检验奖，表彰其长达十年以上的深远影响。从2015年的残差网络到2016年的实时目标检测框架，这两项工作已成为计算机视觉工业级应用的基石，此次获奖是对其历史贡献的最高级别学术认可。

微软研究院与清华大学联合提出的TRELLIS.2斩获最佳学生论文奖。作为一个原生3D大模型，它能在17秒内生成超高精度的PBR（物理渲染）资产，将3D资产生成从“天级”压缩至“秒级”，被普遍视为3D生成领域的新标杆。此外，SAM 3D获最佳论文提名，NVIDIA的NitroGen获最佳论文荣誉提名，分别代表了3D重建与图像生成这两个最具活力的子方向。

与奖项同样引人注目的，是大规模数据集PhysInOne的发布。该数据集包含200万个视频、超过15万个动态3D场景，覆盖力学、光学、流体、磁学等71种物理现象，并提供完整的2D、3D、4D及文本标注。学界将其称为“视觉物理的ImageNet时刻”，因为它为世界模型和具身智能研究补上了一块长期缺失的数据基石。大会数据同时显示，视觉语言动作（VLA）相关论文数量同比增长5倍，世界模型论文增长3倍，具身智能正从单点探索进入系统性方法论构建阶段。前AlphaFold2核心成员Simon Kohl的Keynote演讲则进一步打通了从蛋白质设计到生成式AI的跨领域链路，让与会者看到视觉模型与生命科学深度交汇的巨大潜力。

闭幕日最出圈的讨论，却来自一群中国本科生的惊艳表现。两名本科生在半年内于CVPR、ICCV、ECCV等五大顶会上累计发表5篇论文；更有一位大三学生仅凭一块老旧的泰坦（Titan）GPU完成研究，成功获得本届CVPR最佳学生论文提名。这一“低配逆袭”的故事经多家科技媒体发酵后迅速引爆网络，在算力军备竞赛愈演愈烈的当下，击中了学术界的集体共鸣点，也让资源受限的高校学生看到了冲击顶会的可能性。

与此同时，中国科技巨头在本届CVPR上的存在感同样强烈。美团在现场正式开源了560B参数的LongCat MoE大模型，每次推理仅需激活约27B参数，在性能与效率间取得平衡，标志着其AI战略向基础模型层的纵深延伸。字节跳动则提出了HiFi-Inpaint图像修复新范式，着力解决高频细节恢复难题。这些成果与微软和清华的TRELLIS.2一起，共同构成了中国力量在CVPR舞台上的多维度亮相。

从D4RT的4D重建到PhysInOne的物理数据集，从中国本科生的泰坦逆袭到LongCat的开源浪潮，CVPR 2026清晰地表明：计算机视觉正在从“理解图像”的时代，大踏步迈向“理解世界”的时代。

CVPR 2026闭幕：D4RT获最佳论文，中国本科生凭旧GPU引热议

延伸阅读

相关每日新闻