cs.CV 篇论文 | Gist.Science

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

本文提出了 TIDE，一种无需额外训练且无采样开销的文本引导动态外推方法，通过引入文本锚定机制和基于谱进展感知的动态温度控制，有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题，实现了任意分辨率和长宽比的图像生成。

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

该论文提出了一种利用 Gemma 3 和 Qwen3-VL 等视觉语言基础模型，通过上下文学习从无人机遥感图像中直接生成植物仿真配置（JSON 格式）的新方法，旨在解决功能性结构植物模型在规模化部署中的复杂性瓶颈，并构建了首个针对农业数字孪生三维重建的评估基准。

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本文提出了 PathoScribe 框架，通过统一的检索增强大语言模型技术，将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”，显著提升了病理数据的检索效率与临床决策价值。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

该论文提出了 BiCLIP 框架，通过利用少量锚点样本学习跨域图像特征间的规范几何变换，以极简的参数量实现了多模态特征的对齐，并在多个基准测试中取得了最先进的零样本域适应性能。

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

该论文针对真实世界中音视频分布动态演变的挑战，首次提出了一个无样本的音视频分割持续学习基准，并设计了结合音频引导预融合条件与低秩锚定技术的 ATLAS 基线模型，以在避免灾难性遗忘的同时实现持续感知。

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

本文提出了 SVG-EAR，一种无需训练的线性补偿方法，通过语义聚类与误差感知路由机制，在稀疏视频生成中高效恢复被跳过注意力块的信息，从而在保持生成质量的同时显著提升推理速度。

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

本文提出了 SurgCalib，一种基于高斯泼溅（Gaussian Splatting）的无标记手眼标定框架，旨在解决达芬奇手术机器人因线缆拉伸导致的编码器测量不准问题，并通过在 RCM 约束下的两阶段优化实现了高精度的工具位姿估计。

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS 提出了一种视图自适应的后向跳过机制，通过在后稠密化阶段根据视图损失动态跳过冗余的反向传播，在保持重建质量的同时显著缩短了 3D 高斯泼溅的训练时间。

Jingxing Li, Yongjae Leeand, Deliang FanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

本文提出了一种基于扩散模型的多模态认证框架，通过联合利用原始模板、打印图案及打印机签名特征，将认证任务转化为打印机分类问题，从而有效区分高质量伪造品与真品并提升泛化能力。

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

该论文提出了一种名为“归一化流匹配”（NFM）的新方法，通过利用预训练的自回归归一化流模型来蒸馏准确定性耦合，从而训练出在性能上同时超越独立耦合、最优传输耦合流模型以及教师模型的学生流模型。

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

本文提出了一种针对卷积神经网络（CNN）的精确且架构感知的平坦度度量方法，通过推导全局平均池化网络中交叉熵损失 Hessian 矩阵迹的闭式解，有效解决了现有方法忽略 CNN 几何结构的问题，从而能够更准确地评估和预测模型的泛化性能。

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

本文提出了 WS-Net，一种结合状态空间建模与弱信号注意力融合的深度学习框架，通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制，有效解决了高光谱解混中弱信号被主导端元掩盖的问题，并在多种数据集上显著提升了弱端元的丰度估计精度。

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

本文提出了 SpectralDiff 框架，通过引入结构化频谱扰动引导扩散过程以抑制多方向雨纹，并设计全积 U-Net 架构利用卷积定理提升计算效率，从而在保持紧凑模型的同时实现了高效的单图像去雨效果。

Yucheng Xing, Xin WangWed, 11 Ma💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

该研究提出了一种基于增强型 YOLOv8 的双模型框架，通过结合火/烟实例分割与 COCO 预训练目标检测，实现从火灾识别到基于像素距离换算的实时风险量化评估，从而在工程现场提供可部署的智能火灾预警与态势感知系统。

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

cs.CV