cs.CV 篇论文 | Gist.Science

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

本文提出了一种名为 ReSAM 的点监督自提示框架，通过“细化 - 重查询 - 强化”循环机制，仅利用稀疏点标注即可有效克服域偏移问题，显著提升了 Segment Anything Model 在遥感图像分割任务中的性能与鲁棒性。

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

本文提出了 InnoGym，这是首个旨在通过性能增益和新颖性指标系统评估 AI 代理创新潜力的基准与框架，揭示了当前代理在创造力与有效性之间存在的差距。

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

本文提出了 AdaptVision，一种受人类主动视觉机制启发的视觉语言模型新范式，它通过粗到细的自适应视觉令牌获取策略和去耦回合策略优化（DTPO）强化学习框架，在显著减少视觉令牌消耗的同时实现了优于现有高效方法的性能。

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

本文提出了名为 FARL 的框架，通过利用傅里叶分析将图像的相位（结构）与幅度（风格）特征解耦，并借助双交叉注意力机制引导视觉 - 语言模型进行自适应，从而显著提升了其在少样本场景下的泛化能力。

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

本研究提出了一种基于轻量级无监督变分自编码器（VAE）的模型，利用 3 米分辨率的 Planet Labs 4 波段卫星影像，在约 24 至 30 小时内实现了对苏丹冲突相关火灾区域的近实时检测，其性能在召回率和 F1 分数上均优于传统变化检测方法。

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

该论文通过构建控制变量实验框架，系统性地揭示了在持续测试时适应任务中，掩码家族（空间域与频域）的选择对模型稳定性的决定性影响，指出在基于 Patch 的架构中空间掩码能通过保持结构连贯性避免灾难性遗忘，而频域掩码的适用性则高度依赖于架构与任务的匹配程度。

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

本文提出了名为 Brain-Semantoks 的自监督框架，通过语义分词器和自蒸馏目标学习 fMRI 时间序列的抽象动态表示，从而在无需领域适应的情况下显著提升下游任务性能及泛化能力。

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

本文提出了 $\beta$ -CLIP，这是一种通过跨注意力机制实现多粒度文本与视觉区域层级对齐，并引入 $\beta$ -上下文对比对齐损失（ $\beta$ -CAL）来平衡严格匹配与上下文关联的框架，从而在无需硬负样本的情况下显著提升了细粒度视觉 - 语言检索性能并达到了最先进水平。

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP 提出了一种从单目视频中恢复可模拟的人体运动与场景几何的新方法，其核心在于通过拟合平面基元构建凸且干净的仿真就绪几何、利用人体接触建模补全遮挡区域，并结合强化学习控制器确保物理合理性，从而显著降低了运动跟踪失败率并提升了仿真效率。

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

本文提出了 Solution Flow Models (SoFlow) 框架，通过结合流匹配损失与无需计算雅可比 - 向量积（JVP）的解一致性损失，实现了从 scratch 训练的高效单步生成模型，并在 ImageNet 256x256 数据集上超越了 MeanFlow 模型。

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

本文提出了一种结合深度学习图像分析与包含家族史数据的可解释多模态 AI 框架，旨在通过整合遗传风险因素提升皮肤病诊断的准确性与个性化水平，并规划了后续的临床验证以推动其在医疗工作流中的实际部署。

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

本文提出了名为 GeoTeacher 的半监督 3D 目标检测框架，通过设计基于关键点几何关系的监督模块和引入距离衰减机制的体素级数据增强策略，有效解决了有限标注数据下模型对物体几何信息敏感度低的问题，从而在 ONCE 和 Waymo 数据集上实现了新的最先进性能。

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

该研究提出了一种名为"ForCM"的新方法，通过将多种深度学习模型（如 AttentionUNet 和 ResUNet）与面向对象图像分析（OBIA）相结合，利用 Sentinel-2 多光谱影像显著提升了亚马逊雨林森林覆盖的制图精度（最高达 95.64%），并验证了结合开源工具进行全球环境监测的潜力。

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

cs.CV

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

InnoGym: Benchmarking the Innovation Potential of AI Agents

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

SoFlow: Solution Flow Models for One-Step Generative Modeling

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Aligned explanations in neural networks

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Counterfactual Explanations on Robust Perceptual Geodesics

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

cs.CV

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

InnoGym: Benchmarking the Innovation Potential of AI Agents

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

βββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

SoFlow: Solution Flow Models for One-Step Generative Modeling

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Aligned explanations in neural networks

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Counterfactual Explanations on Robust Perceptual Geodesics

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment