cs.CV 篇论文 | Gist.Science

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

该研究利用包含 1888 名参与者的大规模视频数据集，系统评估了七种视频基础模型在帕金森病远程筛查中的表现，揭示了不同模型在捕捉语音动力学、面部表情及肢体运动等特定临床任务上的优势与局限，并为远程神经监测中的模型选择与任务配置建立了严谨基准。

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

本文针对视觉密集型工程文档问答中预摄入策略导致的细节丢失与检索失效问题，提出了零预摄入的“延迟视觉摄入”（DVI）框架，通过利用文档结构信息构建分层索引并结合 BM25 检索与按需 VLM 分析，在多个数据集上显著超越了现有基于嵌入检索的方法。

Tao Xu2026-02-27💬 cs.CL

Depth from Defocus via Direct Optimization

该论文提出了一种基于交替最小化的全局优化方法，通过结合凸优化与并行网格搜索，实现了在更高分辨率下从散焦图像中高效恢复深度图。

Holly Jackson, Caleb Adams, Ignacio Lopez-Francos + 1 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

该论文提出了一种基于哈达玛积的紧凑潜在编码方法，通过构建保持线性和近似乘积性质的可学习编解码架构，仅需少量 RGB 渲染通道即可实现高效且高精度的光谱渲染，并支持将传统 RGB 资产无缝集成到光谱管线中。

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

该论文提出了一种基于解压缩的皮肤颜色解耦框架，通过引入随机去色映射和几何对齐后处理，实现了病变图像在不同肤色与成像条件下的可控编辑与增强，从而有效解决了因肤色差异导致的模型性能下降问题并促进了皮肤病变的公平诊断。

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

本文针对 SAR 影像智能解译难题，构建了首个 SAR 图文阿尔法地球特征三元组数据集，并提出了一种融合地理空间先验与时空特征嵌入、采用两阶段解耦微调策略的专用视觉语言模型 FUSAR-GPT，显著提升了 SAR 领域的视觉语言理解性能。

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

本文提出了 DICArt 框架，通过将关节物体姿态估计建模为条件离散扩散过程，并结合动态流决策器与分层运动学耦合策略，有效解决了连续空间搜索复杂及难以融入运动学约束的难题，显著提升了类别级 6D 姿态估计的精度与鲁棒性。

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

本文提出了 TextPecker，一种结合字符级结构异常标注数据集与强化学习策略的即插即用方法，旨在解决现有视觉文本生成模型因缺乏结构异常感知能力而导致的渲染失真问题，从而显著提升了生成文本的结构保真度与语义对齐效果。

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

本文提出了 NoRD，一种无需推理标注且仅需少量数据即可通过改进的 Dr. GRPO 算法克服难度偏差，从而在 Waymo 和 NAVSIM 基准上实现与现有模型竞争性能的端到端视觉 - 语言 - 动作自动驾驶模型。

Ishaan Rawal, Shubh Gupta, Yihan Hu + 1 more2026-02-27🤖 cs.AI

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

本文针对多模态大模型在强化学习中因极端样本导致标准差归一化不稳定的问题，提出了一种基于视觉熵和模型置信度定义样本难度的“困难感知组归一化”（Durian）方法，通过按难度重分组并共享组内标准差，有效消除了极端值干扰并显著提升了多模态推理性能。

Jinghan Li, Junfeng Fang, Jinda Lu + 5 more2026-02-27💻 cs

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion

本文提出了 EndoDDC 方法，通过结合图像、稀疏深度信息及深度梯度特征，并利用扩散模型进行优化，有效解决了内窥镜环境中弱纹理和光照反射导致的深度估计稀疏与不准确问题，显著提升了手术机器人导航的 3D 重建精度与鲁棒性。

Yinheng Lin, Yiming Huang, Beilei Cui + 4 more2026-02-27💻 cs

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

本文提出了 CoLoGen 框架，通过渐进式学习课程和核心模块“渐进式表征编织（PRW）”，有效解决了统一图像生成中概念理解与空间定位表征冲突的问题，实现了在编辑、可控生成及定制化生成等任务上的卓越性能。

YuXin Song, Yu Lu, Haoyuan Sun + 6 more2026-02-27💻 cs

Solaris: Building a Multiplayer Video World Model in Minecraft

本文提出了 Solaris，一种通过构建专用的多人游戏数据采集系统、采用分阶段训练策略（包括检查点自强制技术）并在 1264 万帧多人 Minecraft 数据上训练而成的视频世界模型，旨在突破现有单视角模型的局限，实现一致的多视角多智能体交互模拟。

Georgy Savva, Oscar Michel, Daohan Lu + 6 more2026-02-27💻 cs

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

本文提出了一种基于查询频率模式和聚类一致性指标的高维相似性搜索自适应预过滤框架，该框架通过动态分配计算预算，在 ImageNet-1k 数据集上将距离计算量减少了 20.4% 的同时保持了与静态方法相当的召回率和亚毫秒级延迟。

Teodor-Ioan Calin2026-02-27💻 cs

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

本文提出了 CrossLLM-Mamba 框架，通过利用双向 Mamba 编码器将多模态生物大语言模型嵌入的交互预测重构为状态空间对齐问题，从而在保持线性计算复杂度的同时，显著提升了 RNA 与蛋白质、小分子及 RNA 之间相互作用的预测精度与鲁棒性。

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng2026-02-27🧬 q-bio

Enabling clinical use of foundation models in histopathology

该研究提出通过在下游任务模型训练中引入新型鲁棒性损失函数，有效消除了基础模型对技术变异性的敏感性，从而在不重新训练基础模型的前提下，显著提升了计算病理学模型在真实临床数据中的鲁棒性和预测准确性。

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

本文提出了一种结合蒙特卡洛树搜索与神经网络架构搜索的 MNAS-Unet 框架，通过动态探索网络结构并优化上下采样单元，在显著降低搜索预算和模型参数量（仅 0.6M）的同时，在多个医学图像数据集上实现了优于现有最先进模型的分割精度与效率。

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

本文提出了 AeroDGS，一种针对单目无人机视频的物理一致性动态高斯泼溅框架，通过引入单目几何提升模块和融合地面支撑、直立稳定性及轨迹平滑先验的物理引导优化模块，有效解决了单视域航拍场景下的深度模糊与运动估计不稳定问题，并构建了真实数据集验证了其在动态航拍重建中的优越性能。

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

该研究提出了一种无需手动分割的深度学习框架，通过引入器官聚焦注意力（OFA）损失函数，在 3D CT 影像上直接实现肾肿瘤恶性预测，其性能优于传统依赖分割裁剪的模型，为临床决策提供了更高效可靠的方法。

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

Vision Transformers Need More Than Registers

本文指出视觉 Transformer（ViT）中的伪影源于其利用语义无关背景图块作为捷径的惰性聚合行为，并提出通过选择性整合图块特征至 CLS 标记来抑制背景主导的捷径，从而在多种监督范式下显著提升了模型性能。

Cheng Shi, Yizhou Yu, Sibei Yang2026-02-27💻 cs