Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

该论文提出了一种受下游任务启发的水下图像增强(DTI-UIE)框架,通过构建任务驱动的数据集、设计双分支网络及任务感知损失函数,有效解决了现有方法忽视高频细节的问题,显著提升了水下图像在语义分割、目标检测等下游任务中的识别性能。

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

本文提出了 Tiny-DroNeRF,这是一种专为资源受限的亚 30 克微型无人机设计的轻量化神经辐射场模型,它通过优化 Instant-NGP 架构使其能在超低功耗 MCU 上运行,并结合联邦学习方案在多台无人机间协同训练,从而在显著降低内存占用的同时实现了复杂环境下的密集 3D 场景重建。

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

该论文提出了一种基于条件 CycleGAN 的混合类插值数据增强方法(C2GMA),通过利用可见光图像合成合成孔径雷达(SAR)域数据,有效解决了非可见光领域数据稀缺问题,并在冰山分类任务中将准确率提升至 75.4%,显著优于传统增强策略。

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

本文提出了 Stereo-Talker,一种新颖的单样本音频驱动 3D 人类视频合成系统,它通过融合大语言模型先验来生成高保真动作序列,并利用先验引导的混合专家机制优化扩散模型,从而实现了具备精确口型同步、丰富肢体表达、时间一致性及连续视角控制的高质量 3D 说话人视频生成。

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs