cs.CV 篇论文 | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

该论文提出了一种结合卷积神经网络（CNN）与视觉 Transformer（ViT）的集成学习融合模型，通过训练四个独立模型并在预测阶段进行集成，有效克服了单一架构的局限性及冗余特征瓶颈，在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

Cog2Gen3D 提出了一种由 3D 认知引导的扩散框架，通过融合语义与绝对几何信息的认知特征嵌入、3D 潜在认知图及认知引导的潜在扩散机制，解决了现有方法在 3D 生成中缺乏空间几何约束和尺度一致性的问题，显著提升了生成结果的语义保真度与几何合理性。

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

VS3R 提出了一种结合前馈 3D 重建与生成式视频扩散的框架，通过联合估计相机参数、深度和掩码，并引入混合稳定渲染与双流扩散模型，实现了在极端运动下兼具高鲁棒性与全帧一致性的视频稳定效果。

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

本文提出了 MACRO，一种通过从验证执行轨迹中自主发现并合成可复用复合工具，从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体，显著提升了多步骤任务编排的准确性与跨域泛化能力。

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

本文提出了 TumorChain 框架，通过构建包含 150 万条思维链标注的大规模多模态数据集 TumorCoT，并采用交错式多模态推理机制，实现了从医学影像发现到病理预测的可追溯、高准确率的临床肿瘤分析。

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

该论文提出了名为 PatchCue 的新范式，通过将图像划分为补丁并利用补丁级视觉线索替代传统的像素级或纯文本推理，结合两阶段训练策略，显著提升了视觉语言模型在视觉问答、复杂推理及文档理解等任务中的表现。

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

该论文提出了一种名为 MemSeg-Agent 的记忆增强智能体，通过将医学图像分割的适应过程从权重空间转移到记忆空间，利用静态、少样本和测试时工作记忆在无需微调的情况下实现了高效的联邦学习、少样本适应及跨域鲁棒性。

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

该论文利用五个公共视频地点识别数据库和七种图像相似度方法，系统评估了合成新视角对视频地点识别的影响，发现少量合成视角能提升识别效果，而在大规模添加时，视角变化的幅度不如添加视角的数量和数据集图像类型重要。

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

本文提出了 CylinderSplat，一种基于新型圆柱体三平面表示的双分支前馈框架，旨在解决全景图像中遮挡和稀疏视角下的几何重建难题，并在单视图及多视图全景新视图合成任务中实现了最先进的重建质量与几何精度。

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh 提出了一种基于自回归机制的单视图场景重建方法，能够直接从单张 RGB 图像联合预测物体布局与几何，在无需隐式场或后期优化的情况下，一次性生成连贯且适用于下游应用的高质量 3D 室内网格。

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

本文提出了 InnoAds-Composer，一种针对电商海报生成的单阶段框架，通过动态路由机制实现高效的主体、文字和风格三重条件控制，并配合文本特征增强模块与首个联合数据集，显著提升了生成质量与文字准确性，同时保持了较低的推理延迟。

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

该论文针对概念瓶颈模型（CBM）在图像分类中存在的概念信息泄露及性别偏见问题，提出了包括 Top-k 概念过滤、移除偏见概念和对抗性去偏在内的三种缓解技术，显著提升了模型在公平性与性能之间的权衡，推动了可解释且公平图像分类的发展。

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

该论文提出了一种名为 CollabOD 的轻量级协同检测框架，通过结构细节保持、跨路径特征对齐及定位感知轻量化设计，有效解决了无人机图像中小目标检测中因尺度变化、细节退化及资源受限导致的定位不稳定和鲁棒性不足问题。

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

该论文针对现有 2D 转 3D 技术缺乏艺术表现力的问题，提出了以“艺术视差合成”为核心的新范式及 Art3D 框架，通过解耦全局深度意图与局部艺术笔触，实现了从追求几何精确性向构建沉浸式电影级 3D 体验的转变。

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

Pano3DComposer 是一种高效的单全景图前馈框架，通过引入可插拔的“对象 - 世界变换预测器”和粗到细对齐机制，实现了从单张全景图快速生成高保真、几何精确的 360 度完整 3D 场景。

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

该论文提出了首个面向复杂病灶推理分割的 Chain-of-Thought 基准 ComLesion-14K，并设计了结合语义引导提示适配器与自适应双粒度奖励机制的 CORE-Seg 框架，通过从监督微调（SFT）到 GRPO 的渐进式训练策略，显著提升了复杂病灶分割的精度与逻辑可解释性。

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

本文提出了名为 BlackMirror 的通用无训练黑盒检测框架，通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性，从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

本文提出了一种受整流流启发的 RAC 模型，通过利用整流流的直线路径实现可修正的多步解码与双向推理，在降低约 41% 参数和 70% 计算成本的同时，显著超越了现有最先进 VAE 的重建与生成性能。

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

本文提出了名为 RAID 的大规模驾驶场景数据集及一种弱监督风险感知框架，通过建模驾驶员意图与响应关系来识别潜在风险源，并在 RAID 和 HDDS 数据集上显著提升了风险识别性能。

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

本文提出了 TAR-ViTPose，一种专为视频 2D 人体姿态估计设计的时序聚合与恢复视觉 Transformer，通过引入关节中心时序聚合（JTA）和全局恢复注意力（GRA）机制，有效利用帧间时序信息以解决静态模型在遮挡和运动模糊等场景下的不稳定性问题，从而在 PoseTrack2017 基准上显著提升了精度并实现了更高的实时运行帧率。

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs