cs.CV 篇论文 | Gist.Science

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

本文提出了一种名为 ATA 的训练免框架，通过互补的注意力引导与动作引导策略，在不依赖额外数据标注或重新训练的情况下，将隐式推理引入视觉 - 语言 - 动作（VLA）模型，从而在提升任务成功率与鲁棒性的同时保持了高效的推理性能。

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

该论文提出了 Radiometrically Consistent Gaussian Surfels (RadioGS) 框架，通过引入辐射度一致性约束解决高斯泼溅在反渲染中难以分离材质与复杂全局光照（特别是间接光照）的问题，实现了在保持高效渲染的同时显著提升重光照能力和反渲染精度。

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

本文提出了首个基于真实个人相册的基准测试 PhotoBench，旨在推动照片检索从单纯的视觉匹配转向基于多源信息融合的个性化意图驱动推理，并揭示了现有统一嵌入模型与智能体系统在应对此类复杂任务时的关键局限。

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

该论文提出了一种基于率失真理论的框架，通过提取表征准确性与鲁棒性权衡的几何特征（斜率与曲率），揭示了人类视觉系统比现代深度网络具有更平滑灵活的泛化特性，并表明该几何视角能有效超越传统精度指标来评估不同系统的泛化行为。

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

该论文提出了一种受下游任务启发的水下图像增强（DTI-UIE）框架，通过构建任务驱动的数据集、设计双分支网络及任务感知损失函数，有效解决了现有方法忽视高频细节的问题，显著提升了水下图像在语义分割、目标检测等下游任务中的识别性能。

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

该论文提出了一种基于神经算子的连续张量函数表示（NO-CTR），通过引入连续非线性模-n 算子替代传统离散线性运算，实现了对复杂真实世界数据更精确的连续表征，并在多维数据补全任务中展现出优越性能。

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

本文提出了 FireRed-OCR 框架，通过构建“几何 + 语义”数据工厂和采用包含多任务预对齐、专用微调及格式约束 GRPO 的三阶段渐进式训练策略，将通用视觉语言模型（基于 Qwen3-VL）转化为具备像素级精度的结构化文档解析专家，在 OmniDocBench v1.5 上取得了超越现有强基线的 SOTA 性能。

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

本文提出了 Tiny-DroNeRF，这是一种专为资源受限的亚 30 克微型无人机设计的轻量化神经辐射场模型，它通过优化 Instant-NGP 架构使其能在超低功耗 MCU 上运行，并结合联邦学习方案在多台无人机间协同训练，从而在显著降低内存占用的同时实现了复杂环境下的密集 3D 场景重建。

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

本文提出了一种仅利用事件相机数据、通过提取螺旋桨转速并融合至 RPM 感知卡尔曼滤波框架中的无人机轨迹预测方法，在无需 RGB 图像或训练数据的情况下实现了优于现有方法的短中期轨迹预测精度。

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

本文提出了一种无需训练且抗噪性强的新型三维场连接（3D FoJ）表示法，通过优化三维楔形连接作为结构先验，在低信噪比条件下有效提升了 CT、冷冻电镜及激光雷达点云等多种三维成像逆问题的去噪与重建质量，并优于现有的经典与深度学习方法。

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

该论文提出了一种基于条件 CycleGAN 的混合类插值数据增强方法（C2GMA），通过利用可见光图像合成合成孔径雷达（SAR）域数据，有效解决了非可见光领域数据稀缺问题，并在冰山分类任务中将准确率提升至 75.4%，显著优于传统增强策略。

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

本文提出了一种名为 Dite-HRNet 的动态轻量级高分辨率网络，通过引入动态多尺度上下文块和动态全局上下文块来高效提取多尺度特征并建模长程空间依赖，从而在 COCO 和 MPII 数据集上实现了优于现有轻量级网络的人体姿态估计性能。

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

本文提出了 CO^3 方法，通过利用车端与路侧 LiDAR 数据构建对比视图并结合上下文形状预测任务，实现了面向户外场景的无监督 3D 点云表征学习，显著提升了跨传感器和跨数据集的迁移性能及下游检测任务精度。

Runjian Chen, Yao Mu, Runsen Xu + 5 more2026-03-02💻 cs

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy

该论文提出了一种基于卷积神经网络（CNN）的故障检测方案，通过对光伏电池图像进行二分类和多分类，实现了高达 91.1% 和 88.6% 的准确率，显著优于先前研究并有效提升了光伏系统的鲁棒性。

Maryam Paparimoghadamborazjani, Amin Kazemi2026-03-02🤖 cs.LG

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

本文通过揭示扩散模型对齐中奖励过优化与归纳偏差及首因效应的关联，提出了一种利用时间归纳偏差并重置活跃神经元以抑制首因效应的 TDPO-R 算法，从而有效缓解了奖励过优化问题。

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

本文提出了 Uni-ISP，一种通过设备感知嵌入和特殊训练方案统一多移动相机 ISP 学习的新框架，并构建了 FiveCam 数据集，显著提升了正向与逆向 ISP 的性能及对新相机模型的适应性。

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

本文提出了 R2GenCSR 框架，通过采用线性复杂度的 Mamba 作为视觉骨干网络，并结合训练过程中的正负样本上下文检索机制，有效提升了大语言模型在医学影像报告生成任务中的性能与效率。

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

本文提出了一种名为 Shuffle Mamba 的新型多模态图像融合框架，通过引入随机洗牌扫描策略及其理论可逆的逆洗牌变换来消除固定扫描带来的偏差，并结合模态感知表示与蒙特卡洛平均测试方法，实现了优于现有最先进方法的融合质量。

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

本文提出了垂直联邦学习中首个针对标签遗忘的隐私保障方法，通过表示级流形混合增强生成合成嵌入，结合基于梯度的遗忘与恢复优化步骤，在无需泄露数据的前提下实现了高效且保留实用性的标签遗忘。

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

本文提出了 Stereo-Talker，一种新颖的单样本音频驱动 3D 人类视频合成系统，它通过融合大语言模型先验来生成高保真动作序列，并利用先验引导的混合专家机制优化扩散模型，从而实现了具备精确口型同步、丰富肢体表达、时间一致性及连续视角控制的高质量 3D 说话人视频生成。

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs