cs.CV 篇论文 | Gist.Science

You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

本文提出了名为 GUARD 的新框架，通过一种基于新颖统计机制的跨注意力衰减方法，在推理阶段动态引导扩散模型的生成过程，从而在保持图像质量的同时，有效且鲁棒地缓解了模型对训练数据的记忆（包括逐字和模板化记忆）问题。

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou2026-03-03🤖 cs.AI

TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings

本文提出了 TinyVLM 框架，通过解耦架构、Matryoshka 嵌入蒸馏及量化存储等创新技术，首次实现了仅需不到 1MB 内存即可在微控制器上运行的高效零样本目标检测。

Bibin Wilson2026-03-03🤖 cs.AI

Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression

本文提出了首个适用于微控制器的持续目标检测框架“潜在回放检测（LRD）”，通过任务自适应压缩和空间多样性样本选择技术，在仅 64KB 内存预算下实现了高效的增量学习，解决了边缘设备无法在部署后学习新类别的难题。

Bibin Wilson2026-03-03💻 cs

Towards Data-driven Nitrogen Estimation in Wheat Fields using Multispectral Images

本文提出了名为 TerrAI 的基于神经网络的解决方案，利用多光谱图像分析小麦田的时空变异性，以支持精准施肥和喷药的数据驱动决策。

Andreas Tritsarolis, Tomaž Bokan, Matej Brumen + 2 more2026-03-03💻 cs

Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

该论文提出了 RADS 框架，通过将扩散去噪过程建模为动力学系统并利用可达性分析识别记忆化状态，进而采用约束强化学习在推理阶段引导生成轨迹避开记忆化样本，从而在不修改模型骨干的前提下实现了图像质量、提示对齐度与生成多样性的最优平衡。

Sathwik Karnik, Juyeop Kim, Sanmi Koyejo + 2 more2026-03-03🤖 cs.AI

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

本文提出了自适应编辑思维链（ADE-CoT）框架，通过难度感知资源分配、编辑特定验证及深度优先机会性停止策略，有效解决了将图像思维链应用于图像编辑时的资源低效与验证不可靠问题，在显著提升编辑性能的同时实现了超过两倍的推理加速。

Xiangyan Qu, Zhenlong Yuan, Jing Tang + 9 more2026-03-03⚡ eess

GrapHist: Graph Self-Supervised Learning for Histopathology

本文提出了名为 GrapHist 的新型图自监督学习框架，通过将组织建模为细胞图并结合掩码自编码器与异质图神经网络，在显著减少参数量的同时实现了优于现有视觉模型和全监督图模型的泛化性能，并发布了首个大规模数字病理图基准数据集。

Sevda Öğüt, Cédric Vincent-Cuaz, Natalia Dubljevic + 4 more2026-03-03🤖 cs.LG

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

本文提出了一种基于解耦分层变分自编码器的潜在扩散模型（DHVAE），通过 CoTransformer 模块将全局交互上下文与个体运动模式解耦，并结合对比学习与 DDIM 去噪过程，实现了高保真、语义对齐且物理合理的 3D 人机交互生成。

Zichen Geng, Zeeshan Hayder, Bo Miao + 3 more2026-03-03🤖 cs.AI

M-Gaussian: An Magnetic Gaussian Framework for Efficient Multi-Stack MRI Reconstruction

本文提出了 M-Gaussian 框架，通过引入物理一致的磁高斯原语、神经残差场及多分辨率渐进训练策略，将 3D 高斯泼溅技术成功应用于多栈 MRI 重建，在 FeTA 数据集上实现了比现有隐式神经表示方法快 14 倍且达到 40.31 dB PSNR 的高质量各向同性体积重建。

Kangyuan Zheng, Xuan Cai, Jiangqi Wang + 6 more2026-03-03🤖 cs.AI

Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models

该研究提出了一种结合稀疏自编码器机制分析与平衡一致性损失的低秩适配（LoRA）微调方法，在保持医学视觉语言模型回答准确性的同时，显著降低了其对同一临床问题不同表述的回答不一致率。

Binesh Sadanandan, Vahid Behzadan2026-03-03💻 cs

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

本文提出了 ReMD（残差 - 多重网格扩散）框架，通过在每个反向步骤中结合数据一致性与轻量级物理线索进行多尺度残差校正，并利用多小波基捕捉流体结构，从而在无需方程约束的情况下实现了高效、物理一致且谱保真的流体超分辨率重建。

Zhihao Li, Shengwei Dong, Chuang Yi + 5 more2026-03-03🤖 cs.AI

Attention to Neural Plagiarism: Diffusion Models Can Plagiarize Your Copyrighted Images!

该论文提出了一种无需额外训练、基于梯度的“锚点与垫片”方法，通过操纵扩散模型的潜在空间与交叉注意力机制，成功绕过可见及不可见的版权保护（如水印和签名），实现了对受版权保护图像的高度逼真复制，从而揭示了当前神经模型面临的严重数据剽窃风险。

Zihang Zou, Boqing Gong, Liqiang Wang2026-03-03💻 cs

Multiview Progress Prediction of Robot Activities

本文针对机器人操作中单视角易受自遮挡影响的问题，提出了一种多视角架构以预测机器人动作的进展，并通过 Mobile ALOHA 实验验证了该方法的有效性。

Elena Zoppellari, Federico Becattini, Marco Fiorucci + 1 more2026-03-03💻 cs

EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

本文提出了 EfficientPosterGen 框架，通过语义感知关键信息检索、基于视觉的上下文压缩以及无代理的布局违规检测三大创新，有效解决了现有方法在处理长论文时信息密度低、Token 消耗大及布局验证不可靠的问题，实现了高效且高质量的自动化学术海报生成。

Wenxin Tang, Jingyu Xiao, Yanpei Gong + 6 more2026-03-03🤖 cs.AI

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

本文提出了 BiCLIP 框架，通过双向多模态融合机制与增强一致性目标，显著提升了医学图像分割在标注稀缺及存在临床伪影等复杂场景下的鲁棒性与语义对齐能力。

Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah + 1 more2026-03-03💻 cs

FujiView: Multimodal Late-Fusion for Predicting Scenic Visibility

本文提出了名为 FujiView 的多模态晚融合框架及包含超 10 万张图像的数据集，通过融合网络摄像头图像与气象数据，实现了对富士山等自然景观可视度的高精度预测（同天预测准确率约 89%），并确立了景观可视度预测作为多模态学习新基准任务的地位。

Bryceton Bible, Shah Md Nehal Hasnaeen, Hairong Qi2026-03-03💻 cs

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

FlowPortrait 提出了一种基于多模态骨干网络与人类对齐评估系统的强化学习框架，通过组相对策略优化（GRPO）有效解决了音频驱动肖像视频生成中唇形同步、动作自然度及评估指标与人类感知不匹配等挑战，显著提升了生成视频的质量。

Weiting Tan, Andy T. Liu, Ming Tu + 3 more2026-03-03🤖 cs.AI

DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops

该研究通过整合大规模异构数据并采用自监督学习微调 DINOv3 作为骨干网络，构建了 DINOv3-YOLO26 双骨干架构模型，显著提升了蔬菜作物中杂草检测的精度与跨域泛化能力，同时保持了实时推理性能。

Boyang Deng, Yuzhen Lu2026-03-03🤖 cs.AI

SKINOPATHY AI: Smartphone-Based Ophthalmic Screening and Longitudinal Tracking Using Lightweight Computer Vision

本文介绍了 SKINOPATHY AI，这是一款基于智能手机的轻量级计算机视觉 Web 应用，通过五个可解释的筛查模块（涵盖红眼量化、眨眼率估计、瞳孔光反射分析、巩膜颜色索引及虹膜病变测量），在无需云端 AI 推理和专用设备的条件下，为资源匮乏地区提供了隐私保护的纵向眼科筛查与追踪解决方案。

S. Kalaycioglu, C. Hong, M. Zhu + 1 more2026-03-03🤖 cs.LG

GazeXPErT: An Expert Eye-tracking Dataset for Interpretable and Explainable AI in Oncologic FDG-PET/CT Scans

本文介绍了 GazeXPErT 数据集，该数据集通过收集专家在 346 例 FDG-PET/CT 肿瘤扫描中的眼动追踪数据，旨在提升 AI 模型在肿瘤分割、定位及意图预测方面的可解释性与性能，从而推动其在肿瘤学临床诊断中的应用。

Joy T Wu, Daniel Beckmann, Sarah Miller + 15 more2026-03-03⚡ eess