cs.CV 篇论文 | Gist.Science

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

该论文提出了一种通过重建视觉基元来学习高层结构解释的神经符号系统，其在组织病理学图像异常诊断任务中不仅比传统深度学习架构具有更高的分类准确率，还具备更强的可解释性。

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

该论文提出了一种输入自适应生成动力学框架，通过训练扩散模型适应不同的生成轨迹，使其能根据样本复杂度动态调整生成过程，从而在保持图像生成质量的同时减少平均采样步数。

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

本文介绍了基于 420 万条全球时间序列数据训练、在多项任务中性能显著优于前代及同类模型的开源地理空间基础模型 Prithvi-EO-2.0，该模型通过融合时空嵌入与用户反馈机制，实现了从灾害响应到生态系统监测等多样化地球观测应用的高效覆盖。

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

iLLaVA 通过提出一种能回收被丢弃令牌有用信息的新型令牌合并策略，联合优化图像编码器与大语言模型，从而在显著提升图像和视频理解任务吞吐率并降低预填充时间的同时，实现了比现有方法更优的端到端加速效果。

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

该论文提出了名为 HarmonicEval 的无参考综合评估指标，通过自下而上的方式聚合多准则得分以解决现有指标难以适应多任务场景的问题，并构建了包含 1.8 万条专家标注的 MMHE 基准，实验表明其比传统指标与人类判断具有更高的相关性。

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

LangSurf 提出了一种语言嵌入表面高斯场方法，通过联合训练策略将语言特征精确对齐至物体表面，并结合分层上下文感知模块提取细粒度特征，从而显著提升了开放词汇 2D 与 3D 语义分割及后续编辑任务的性能。

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

该论文提出了一种利用预训练视觉 - 语言模型（VLM）从少量演示中学习抽象符号世界模型的方法，通过自动构建和筛选谓词，使机器人能够在未见过的复杂场景中实现零样本泛化，从而解决长视野的决策规划问题。

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

该论文提出了一种基于潜在聚类的数据缩减策略，通过从决策边界附近智能筛选或生成关键样本，在大幅降低半监督对抗训练（SSAT）所需数据量和计算成本的同时，保持了与全量训练相当的鲁棒性。

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

本文提出了一种基于最大后验概率（MAP）引导项估计的无特定问题扩散模型，通过将条件得分函数分解为无条件得分与基于高斯先验的引导项，有效利用预训练无条件扩散模型解决图像逆问题，并在超分辨率和图像修复任务中展现出比现有方法更优的内容保持与结构连贯性。

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

本文提出了一种名为生成预测控制（GPC）的框架，该框架通过结合专家演示克隆的生成策略、基于探索数据训练的预测世界模型以及利用模型进行前瞻优化的在线规划器，在多种仿真与真实世界的机器人操作任务中显著超越了传统的行为克隆方法。

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

本文提出了 VL-Nav，一种结合神经推理与符号引导的神经符号视觉语言导航系统，通过任务规划与高效探索机制显著提升了机器人在复杂指令下于大规模未见环境中的导航成功率。

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

本文提出了 Prompt-SID，这是一种基于潜在扩散过程生成结构提示、利用自监督下采样对进行训练并结合尺度回放机制的单图像去噪框架，旨在解决现有无监督方法在保留图像结构细节方面的不足。

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

该论文提出了一种名为 LaVCa 的数据驱动方法，利用大语言模型为图像生成自然语言描述，从而比现有方法更准确、细致地解析人脑视觉皮层中体素的选择性及其功能特性。

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

该研究提出了一种基于多模态 MRI 图像融合（T1、T2、T1ce 和 FLAIR）的胶质瘤亚类分类方法，通过结合 2D 与 3D UNET 分割及加权平均融合技术，并利用预训练 ResNet50 模型进行分类，在 BraTS 数据集上实现了 99.25% 的高准确率，显著优于现有方法。

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

该论文提出了一种名为“留一法 PPO"（LOOP）的新型强化学习方法，通过结合 REINFORCE 的方差缩减技术与 PPO 的鲁棒性及样本效率优势，有效解决了文本到图像扩散模型微调中样本效率与最终性能之间的权衡难题。

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

该研究提出了一种结合解剖学标志点与 Transformer 架构的新型图卷积神经网络，利用四面体网格处理 sMRI 数据，在无需昂贵 PET 扫描的情况下显著提升了阿尔茨海默病诊断及脑淀粉样蛋白阳性（尤其是中风险人群）的预测精度。

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

本文提出了 Snapmoji 系统，通过高斯域自适应（GDA）技术将用户自拍即时转换为 3D 主风格头像并进一步应用二次风格化，从而在保留用户身份的同时生成可在移动设备上流畅动画的个性化双风格化虚拟形象。

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

本文提出了名为 SceneEval 的评估框架及包含 500 个文本描述与详细标注的基准数据集 SceneEval-500，旨在通过细粒度的显性需求指标（如物体数量、属性及空间关系）和隐性期望指标（如支撑、碰撞及可导航性），全面且可解释地评估文本条件 3D 室内场景生成方法的语义连贯性与合理性。

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

该论文针对传统向后兼容学习（BCL）中强对齐约束损害新模型判别能力的问题，提出通过引入邻居驱动和优化驱动的原型扰动来松弛约束，从而在避免耗时回填的同时提升新模型在向后兼容学习中的性能。

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

该论文提出了一种从 2D 对齐到 3D 合理性的统一框架，通过融合异构基础模型先验进行 2D 结构对齐，并引入无穿透扩散模型优化 3D 空间交互，从而在单目图像中实现抗遮挡、无穿透且符合物理真实性的双手重建。

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs