2025年国际计算机视觉大会(International Conference on Computer Vision, ICCV)于10月19日至23日在美国夏威夷檀香山举办。西安电子科技大学人工智能学院参赛队在ICCV 2025赛事中累计斩获13项冠亚季军奖。

团队针对多模态理解、图像重建、视频分析及视觉空间推理等核心问题,提出了一系列创新解决方案。本次竞赛所有参赛队伍由国家自然科学基金重点、联合项目,教育部创新团队,国家学科创新引智基地等项目支持。
由2024级硕士研究生贺晶、王一晴和博士生杨育婷组成的队伍获得“ICCV 2025 HouseCat6D物体姿态估计挑战赛”冠军奖项。该赛道旨在完成高反射与透明表面物体的6D姿态估计任务,参赛者需对具镜面反射、半透明与折射属性的家居物体,预测其在三维空间中的旋转、平移及尺度。比赛采用真实场景数据集HouseCat6D-Tricky,包含大量镜面与透明物体实例,具有较高的光照复杂性和场景多样性。
冠军队伍基于AG-Pose,采用DINOv2-ViT-B/14骨干,结合类别自适应损失与关键点置信度监督,并通过不确定性估计实现高置信关键点的动态加权,从而提升6D姿态估计表现。该方案有效缓解了传统方法在透明或镜面物体上易受噪声干扰、姿态回归不稳定等问题,在复杂光照与多材质场景中显著提升了6D姿态估计的鲁棒性与精度。
由2024级硕士研究生徐铭、李昱颖和博士研究生路小强组成的学生队伍获得“ICCV 2025 MOT挑战赛”冠军奖项,2025级硕士研究生胡进、刘彪、徐金阳组成的学生队伍获得季军奖项。该赛道聚焦时空视频动作定位任务,要求依据给定视频与自然语言查询,检测跟踪匹配目标并确定关联时刻,以解决目标与语言匹配、复杂场景定位难题。竞赛采用基于3个现有基准数据集构建的MOT25-StAG官方数据集。
冠军队伍针对任务需求,提出基于增强型剪辑补全的双阶段时空定位方案。先以FlashVTG(骨干为InternVideo2)完成时间定位,结合剪辑补全策略推断缺失监督字段;再将增强后的时间切片输入TempRMOT(编码器为ResNet-50)进行空间定位,推理阶段还引入多种后处理技术。该方案突破技术瓶颈,解决单一阶段推理问题,实现时间定位可靠、空间轨迹精准的效果,兼顾准确性与效率。
由2024级硕士研究生卢艺辰、谢兴霖和方静组成的队伍获得“ICCV 2025 多主体图像个性化挑战赛”亚军。生成式AI的核心难题——在单幅画面中精准集成多个个性化概念,涵盖人物、动物、物品等多种类别,要求选手利用复合文本提示同时个性化两个目标,生成语义一致、身份保持、构图自然的融合图像。
亚军队伍提出统一扩散生成方案OmniGen-MP,以单一 Transformer 为骨干,直接加载 X2I 百万级多任务预训练权重,无需 CLIP、ControlNet 等外挂,即可在文本-图像交织序列上端到端推理,在 rectified-flow 目标中引入加权 MSE,对编辑区域放大损失,抑制模型复制捷径,显著增强稀疏主体特征学习。该方案有效解决了图像和文本融合的核心问题,有效提升多主体个性化图像生成的效率与性能。
由2024级硕士研究生王一晴、贺晶和博士研究生张柯欣组成的队伍获“AIM2025真实世界RAW图像去噪挑战赛”中感知指标上的冠军。该赛项聚焦真实拍摄场景下的RAW图像降噪难题,要求参赛团队以自我监督、与相机无关的方式,从含噪图像中预测干净的RAW图像。该竞赛由索尼AI和维尔茨堡大学计算机视觉实验室联合主办。
冠军队伍以频率增强网络(FrENet)为核心框架,针对RAW去噪任务优化AFPM模块以适配噪声分布和模型规模;并对超大图采用线性插值裁剪——推理—拼接策略,避免传统拼接产生块效应和显存溢出。该方案突破了RAW图像去噪领域“真实场景泛化难”与“超大尺寸图像推理适配性差”两大核心痛点,验证了频域处理技术与线性插值裁剪和拼接策略的有效性。
由2024级硕士研究生贺晶、王一晴和博士生马梦茹组成的队伍获得“ICCV 2025 多模态不一致推理挑战赛”赛项冠军,由2025级硕士研究生李正阳、杜政霖、文怡组成的队伍获亚军。该赛道聚焦多模态语义不一致性推理任务,旨在评估模型在复杂视觉-文本内容中识别与定位语义冲突的能力。参赛者需针对网页、演示文稿、海报等真实布局型多模态文档,检测并选出存在语义不一致的元素。
冠军队伍基于Qwen2.5-VL-32B,构建带显式逻辑约束的结构化提示模板,区分并引导模型处理事实矛盾、身份误指、语境错配等多类语义不一致,从而实现跨模态特征聚合与链式推理。该方案有效解决了多模态大模型在复杂布局文档中易出现的语义偏差与不稳定输出问题,显著提升大模型在复杂版面布局场景下的上下文解析与跨域语义对齐能力。
由2025级硕士研究生廖朝阳、周晓鹏、宋智龙组成的队伍获“ICCV 2025 SF20K竞赛”亚军。该赛道聚焦故事级视频理解中的长时推理开放式问答。基于SF20K数据集,包含20,143部时长5–40分钟(均值约 11 分钟)、覆盖多类型与多语言的短片。测试阶段采用人工构建问答对,用于评估模型对视频内容的长时序理解与多模态推理能力。
亚军队伍重点解决长视频时序建模和多模态对齐问题:在数据处理阶段通过关键帧提取保留语义转折;推理阶段利用提示模板融合视觉与字幕信息,构建问题相关上下文,从而增强跨模态理解。该方案缓解了长视频中时序利用不足与融合困难的问题,显著提升复杂叙事场景下的问答表现。
由2025级硕士研究生罗蒲、李玉梅、许琮组成的队伍获“AIM 2025 激流分割挑战赛”赛题季军。该赛题聚焦离岸流分割,旨在利用视觉模型实现海上离岸流的精准识别,为安全预警提供支持。离岸流场景受光照、天气与海域变化影响显著,对模型泛化与分割精度要求高。赛事提供多来源图像与视频数据集,核心挑战在于提升模型对复杂场景的适应能力。
季军队伍从数据增强、双模型协同与结果融合三方面进行优化。数据上采用“基础增强 + 进阶增强”策略以增加场景多样性;模型上构建SparseInst(PVTv2-B2-li)与RTMDet-Ins-x 协同框架;结果阶段以IoU 与Dice双指标共同筛选高置信输出,降低单模型偏差。该方案有效提升了离岸流识别精度,为海洋安全预警与生态保护提供了可靠的技术基础。
由2024级硕士研究生贺晶、王一晴博士生孙龙组成的队伍获得“ICCV 2025 CLVL - 三维视觉与语言挑战赛”冠军;由2025级硕士研究生赵振宇、唐颖、曹宇思组成的队伍获亚军,由2025级硕士研究生胡进、刘彪、徐金阳组成的学生队伍获季军。该赛题聚焦于3D场景中的参考多目标定位,评估跨模态理解与推理能力。赛题使用Multi3DRefer与ViGiL3D数据集,前者关注单文本与多目标关联,后者强调语言多样性与复杂语义解析。
冠军队伍在Multi3DRefer基础上,将视觉主干替换为CLIPViT-L/14以增强跨模态对齐,并在推理中采用置信度自适应过滤与提议限制策略。该方案有效缓解了复杂场景下参考多目标视觉定位中低置信度预测与语义对齐不足的问题,显著增强了目标定位的准确性与语言理解的稳定性,在复杂三维环境中展现出优异的鲁棒性与泛化能力。
由2025级硕士研究生文怡、杜政霖、李正阳组成的队伍获“ICCV 2025儿童启发式视觉类比挑战赛”季军。该赛道挑战受到关于儿童如何理解世界的发展研究的启发,聚焦于视觉空间推理,旨在评估模型理解并应用图像对于抽象视觉变换的能力。
季军队伍基于Qwen2.5-VL-7B,从数据增强、模型设计与高效微调等方面构建视觉–语言联合推理框架。队伍引入多样化数据增强,并提出“概念–答案融合”策略,将概念理解与生成推理联合建模,以跨模态注意力实现语义融合。该方案缓解了视觉特征与语言语义对齐不足的问题,提升了模型泛化与解释性。
西电人工智能学院焦李成教授团队在遥感领域深耕三十余载,积累了扎实的理论基础与丰富的实践经验,并在计算机视觉与遥感领域的多项顶级国际会议上取得了系列重要突破。团队长期指导学生参与国内外高水平专业竞赛,屡创佳绩。针对计算机视觉与模式识别领域的前沿挑战,团队提出了一系列创新解决方案,在关键技术层面实现了突破性进展。与此同时,通过“以赛促学”的培养机制,学生得以在实践中快速提升科研素养、加强学术交流能力,这也是学院创新人才培养体系中的重要一环。该模式不仅帮助学生深入掌握领域知识、激发科研热情,更有效锻炼了团队协作精神与攻坚克难的综合素质。近年来,在IGARSS、CVPR、ICCV、ECCV等国际顶级赛事中,团队指导学生累计获得百余项冠、亚、季军等奖项,展现了卓越的人才培养成效与学科建设水平。(通讯员:张柯欣 杨育婷)
编辑:耿玥