cs.CV 篇论文 | Gist.Science

Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

该论文提出了 RADS 框架，通过将扩散去噪过程建模为动力学系统并利用可达性分析识别记忆化状态，进而采用约束强化学习在推理阶段引导生成轨迹避开记忆化样本，从而在不修改模型骨干的前提下实现了图像质量、提示对齐度与生成多样性的最优平衡。

Sathwik Karnik, Juyeop Kim, Sanmi Koyejo + 2 more2026-03-03🤖 cs.AI

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

本文提出了自适应编辑思维链（ADE-CoT）框架，通过难度感知资源分配、编辑特定验证及深度优先机会性停止策略，有效解决了将图像思维链应用于图像编辑时的资源低效与验证不可靠问题，在显著提升编辑性能的同时实现了超过两倍的推理加速。

Xiangyan Qu, Zhenlong Yuan, Jing Tang + 9 more2026-03-03⚡ eess

GrapHist: Graph Self-Supervised Learning for Histopathology

本文提出了名为 GrapHist 的新型图自监督学习框架，通过将组织建模为细胞图并结合掩码自编码器与异质图神经网络，在显著减少参数量的同时实现了优于现有视觉模型和全监督图模型的泛化性能，并发布了首个大规模数字病理图基准数据集。

Sevda Öğüt, Cédric Vincent-Cuaz, Natalia Dubljevic + 4 more2026-03-03🤖 cs.LG

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

本文提出了一种基于解耦分层变分自编码器的潜在扩散模型（DHVAE），通过 CoTransformer 模块将全局交互上下文与个体运动模式解耦，并结合对比学习与 DDIM 去噪过程，实现了高保真、语义对齐且物理合理的 3D 人机交互生成。

Zichen Geng, Zeeshan Hayder, Bo Miao + 3 more2026-03-03🤖 cs.AI

M-Gaussian: An Magnetic Gaussian Framework for Efficient Multi-Stack MRI Reconstruction

本文提出了 M-Gaussian 框架，通过引入物理一致的磁高斯原语、神经残差场及多分辨率渐进训练策略，将 3D 高斯泼溅技术成功应用于多栈 MRI 重建，在 FeTA 数据集上实现了比现有隐式神经表示方法快 14 倍且达到 40.31 dB PSNR 的高质量各向同性体积重建。

Kangyuan Zheng, Xuan Cai, Jiangqi Wang + 6 more2026-03-03🤖 cs.AI

Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models

该研究提出了一种结合稀疏自编码器机制分析与平衡一致性损失的低秩适配（LoRA）微调方法，在保持医学视觉语言模型回答准确性的同时，显著降低了其对同一临床问题不同表述的回答不一致率。

Binesh Sadanandan, Vahid Behzadan2026-03-03💻 cs

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

本文提出了 ReMD（残差 - 多重网格扩散）框架，通过在每个反向步骤中结合数据一致性与轻量级物理线索进行多尺度残差校正，并利用多小波基捕捉流体结构，从而在无需方程约束的情况下实现了高效、物理一致且谱保真的流体超分辨率重建。

Zhihao Li, Shengwei Dong, Chuang Yi + 5 more2026-03-03🤖 cs.AI

Attention to Neural Plagiarism: Diffusion Models Can Plagiarize Your Copyrighted Images!

该论文提出了一种无需额外训练、基于梯度的“锚点与垫片”方法，通过操纵扩散模型的潜在空间与交叉注意力机制，成功绕过可见及不可见的版权保护（如水印和签名），实现了对受版权保护图像的高度逼真复制，从而揭示了当前神经模型面临的严重数据剽窃风险。

Zihang Zou, Boqing Gong, Liqiang Wang2026-03-03💻 cs

Multiview Progress Prediction of Robot Activities

本文针对机器人操作中单视角易受自遮挡影响的问题，提出了一种多视角架构以预测机器人动作的进展，并通过 Mobile ALOHA 实验验证了该方法的有效性。

Elena Zoppellari, Federico Becattini, Marco Fiorucci + 1 more2026-03-03💻 cs

EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

本文提出了 EfficientPosterGen 框架，通过语义感知关键信息检索、基于视觉的上下文压缩以及无代理的布局违规检测三大创新，有效解决了现有方法在处理长论文时信息密度低、Token 消耗大及布局验证不可靠的问题，实现了高效且高质量的自动化学术海报生成。

Wenxin Tang, Jingyu Xiao, Yanpei Gong + 6 more2026-03-03🤖 cs.AI

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

本文提出了 BiCLIP 框架，通过双向多模态融合机制与增强一致性目标，显著提升了医学图像分割在标注稀缺及存在临床伪影等复杂场景下的鲁棒性与语义对齐能力。

Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah + 1 more2026-03-03💻 cs

FujiView: Multimodal Late-Fusion for Predicting Scenic Visibility

本文提出了名为 FujiView 的多模态晚融合框架及包含超 10 万张图像的数据集，通过融合网络摄像头图像与气象数据，实现了对富士山等自然景观可视度的高精度预测（同天预测准确率约 89%），并确立了景观可视度预测作为多模态学习新基准任务的地位。

Bryceton Bible, Shah Md Nehal Hasnaeen, Hairong Qi2026-03-03💻 cs

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

FlowPortrait 提出了一种基于多模态骨干网络与人类对齐评估系统的强化学习框架，通过组相对策略优化（GRPO）有效解决了音频驱动肖像视频生成中唇形同步、动作自然度及评估指标与人类感知不匹配等挑战，显著提升了生成视频的质量。

Weiting Tan, Andy T. Liu, Ming Tu + 3 more2026-03-03🤖 cs.AI

DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops

该研究通过整合大规模异构数据并采用自监督学习微调 DINOv3 作为骨干网络，构建了 DINOv3-YOLO26 双骨干架构模型，显著提升了蔬菜作物中杂草检测的精度与跨域泛化能力，同时保持了实时推理性能。

Boyang Deng, Yuzhen Lu2026-03-03🤖 cs.AI

SKINOPATHY AI: Smartphone-Based Ophthalmic Screening and Longitudinal Tracking Using Lightweight Computer Vision

本文介绍了 SKINOPATHY AI，这是一款基于智能手机的轻量级计算机视觉 Web 应用，通过五个可解释的筛查模块（涵盖红眼量化、眨眼率估计、瞳孔光反射分析、巩膜颜色索引及虹膜病变测量），在无需云端 AI 推理和专用设备的条件下，为资源匮乏地区提供了隐私保护的纵向眼科筛查与追踪解决方案。

S. Kalaycioglu, C. Hong, M. Zhu + 1 more2026-03-03🤖 cs.LG

GazeXPErT: An Expert Eye-tracking Dataset for Interpretable and Explainable AI in Oncologic FDG-PET/CT Scans

本文介绍了 GazeXPErT 数据集，该数据集通过收集专家在 346 例 FDG-PET/CT 肿瘤扫描中的眼动追踪数据，旨在提升 AI 模型在肿瘤分割、定位及意图预测方面的可解释性与性能，从而推动其在肿瘤学临床诊断中的应用。

Joy T Wu, Daniel Beckmann, Sarah Miller + 15 more2026-03-03⚡ eess

A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

该论文针对白board笔迹分割中极端的类别不平衡问题，提出了一套结合区域指标、边界感知指标及细粒度子集公平性分析的综合评估协议，揭示了重叠损失函数在提升整体与边界精度方面的优势，并阐明了传统二值化方法在平均性能与深度学习模型在极端情况下的鲁棒性之间的权衡。

Nicholas Korcynski2026-03-03🤖 cs.LG

ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering

本文提出了 ConFoThinking 框架，通过聚合分散的注意力信号至指定中间层并利用简洁语义线索提取关注区域，有效解决了多模态大模型在视觉问答中定位不准和语义噪声问题，显著提升了细粒度感知性能。

Zhaodong Wu, Haochen Xue, Qi Cao + 5 more2026-03-03💻 cs

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

本文针对生成式 AI 在简单确定性任务中表现出的“简单悖论”，提出了“服从性”概念及分级体系，并推出了首个专注于纯色生成的 VIOLIN 基准，旨在揭示模型在指令对齐上的根本局限并推动相关研究。

Hongyu Li, Kuan Liu, Yuan Chen + 6 more2026-03-03🤖 cs.AI

Image-Based Classification of Olive Species Specific to Turkiye with Deep Neural Networks

该研究利用立体相机采集图像，并通过迁移学习优化 MobileNetV2 和 EfficientNetB0 卷积神经网络模型，成功实现了对土耳其五种特有橄榄品种的高精度（94.5%）自动分类，为农产品质量管控提供了有效的深度学习解决方案。

Irfan Atabas, Hatice Karatas2026-03-03💻 cs