cs.CV 篇论文 | Gist.Science

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

本文提出了 UltraStar 模型，通过将超声心动图探头导航从路径回归重构为基于锚点的全局定位，利用语义感知的星形图结构有效建模历史关键帧，从而在含噪探索轨迹中实现更鲁棒且可扩展的精准导航。

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

本文提出了 WildCross，这是一个包含超过 47.6 万帧序列 RGB 图像、半稠密深度与法线标注及精确 6DoF 位姿的大规模跨模态基准数据集，旨在解决现有数据集在结构化城市环境中占主导而缺乏非结构化自然环境数据的问题，从而推动机器人跨模态场景定位与度量深度估计技术的发展。

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

本文提出了 SCATR 模型，通过引入“二次分配”和“轨迹查询丢弃”两种架构无关的训练策略，有效缓解了基于 LiDAR 的跟踪 - 注意力框架中的新实例抑制问题，从而在 nuScenes 基准上实现了最先进的性能并显著缩小了其与检测 - 跟踪方法的差距。

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

本文提出了一种名为 ATA 的训练免框架，通过互补的注意力引导与动作引导策略，在不依赖额外数据标注或重新训练的情况下，将隐式推理引入视觉 - 语言 - 动作（VLA）模型，从而在提升任务成功率与鲁棒性的同时保持了高效的推理性能。

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

该论文提出了 Radiometrically Consistent Gaussian Surfels (RadioGS) 框架，通过引入辐射度一致性约束解决高斯泼溅在反渲染中难以分离材质与复杂全局光照（特别是间接光照）的问题，实现了在保持高效渲染的同时显著提升重光照能力和反渲染精度。

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

本文提出了首个基于真实个人相册的基准测试 PhotoBench，旨在推动照片检索从单纯的视觉匹配转向基于多源信息融合的个性化意图驱动推理，并揭示了现有统一嵌入模型与智能体系统在应对此类复杂任务时的关键局限。

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

该论文提出了一种基于率失真理论的框架，通过提取表征准确性与鲁棒性权衡的几何特征（斜率与曲率），揭示了人类视觉系统比现代深度网络具有更平滑灵活的泛化特性，并表明该几何视角能有效超越传统精度指标来评估不同系统的泛化行为。

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

该论文提出了一种受下游任务启发的水下图像增强（DTI-UIE）框架，通过构建任务驱动的数据集、设计双分支网络及任务感知损失函数，有效解决了现有方法忽视高频细节的问题，显著提升了水下图像在语义分割、目标检测等下游任务中的识别性能。

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

该论文提出了一种基于神经算子的连续张量函数表示（NO-CTR），通过引入连续非线性模-n 算子替代传统离散线性运算，实现了对复杂真实世界数据更精确的连续表征，并在多维数据补全任务中展现出优越性能。

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

本文提出了 FireRed-OCR 框架，通过构建“几何 + 语义”数据工厂和采用包含多任务预对齐、专用微调及格式约束 GRPO 的三阶段渐进式训练策略，将通用视觉语言模型（基于 Qwen3-VL）转化为具备像素级精度的结构化文档解析专家，在 OmniDocBench v1.5 上取得了超越现有强基线的 SOTA 性能。

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

本文提出了 Tiny-DroNeRF，这是一种专为资源受限的亚 30 克微型无人机设计的轻量化神经辐射场模型，它通过优化 Instant-NGP 架构使其能在超低功耗 MCU 上运行，并结合联邦学习方案在多台无人机间协同训练，从而在显著降低内存占用的同时实现了复杂环境下的密集 3D 场景重建。

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

本文提出了一种仅利用事件相机数据、通过提取螺旋桨转速并融合至 RPM 感知卡尔曼滤波框架中的无人机轨迹预测方法，在无需 RGB 图像或训练数据的情况下实现了优于现有方法的短中期轨迹预测精度。

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

本文提出了一种无需训练且抗噪性强的新型三维场连接（3D FoJ）表示法，通过优化三维楔形连接作为结构先验，在低信噪比条件下有效提升了 CT、冷冻电镜及激光雷达点云等多种三维成像逆问题的去噪与重建质量，并优于现有的经典与深度学习方法。

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

该论文提出了一种基于条件 CycleGAN 的混合类插值数据增强方法（C2GMA），通过利用可见光图像合成合成孔径雷达（SAR）域数据，有效解决了非可见光领域数据稀缺问题，并在冰山分类任务中将准确率提升至 75.4%，显著优于传统增强策略。

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

cs.CV