MAviS: A Multimodal Conversational Assistant For Avian Species

该论文提出了专为鸟类物种设计的多模态对话助手 MAviS,通过构建包含图像、音频和文本的大规模数据集(MAviS-Dataset)及评估基准(MAviS-Bench),训练出在细粒度物种理解与多模态问答方面表现优于现有开源模型(如 MiniCPM-o-2.6)的 MAviS-Chat,从而推动了生物多样性保护与生态监测领域的智能化发展。

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

本文提出了 StructSAM,一种专为 Segment Anything Model (SAM) 设计的结构与谱保持令牌合并框架,它通过基于梯度的令牌能量评分和网格平坦度筛选机制,在显著降低计算量的同时有效保护了边界细节与提示信息,从而在多个自然及医学基准测试中优于现有方法。

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

该论文提出了 AgrI 挑战赛,通过引入多团队独立采集数据的跨团队验证(CTV)评估范式,揭示了单一数据源训练在农业视觉任务中的泛化缺陷,并证明了多源协作训练能显著缩小跨域泛化差距,同时发布了一个包含 5 万余张图像的大规模公开数据集以推动数据为中心的农业视觉研究。

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

该论文提出了一种基于 3D 概念瓶颈模型的端到端框架,通过将 CTA 影像特征映射为可解释的形态学与血流动力学临床概念,在保持高预测精度(最高达 93.33%)的同时显著提升了颅内动脉瘤分类的可解释性,从而克服了传统黑盒模型在临床应用中缺乏透明度的局限。

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

该论文针对现有牙科数据集缺乏单颗牙齿图像及全面描述的问题,提出利用视觉语言模型(VLM)通过引导式提示生成高质量单颗牙齿图像描述的方法,以填补数据空白并支持更全面的牙科图像分析。

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

本文提出了 DTPSR 框架,通过构建包含解耦全局与局部、低频与高频描述的大规模数据集 DisText-SR,并利用空间层级与频率语义双重解耦的文本先验及多分支引导策略,显著提升了基于扩散模型的图像超分辨率在语义可控性、细节还原度及泛化能力方面的表现。

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

本文针对移动智能体在线强化学习中的泛化难题,提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统,实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力,但在未见模板和应用上的泛化效果仍有限,并初步验证了测试时少样本适应的潜力。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

DogWeave 提出了一种基于模型的框架,通过扩散增强的法线场优化和结构风格引导的条件补全技术,仅从单张 RGB 图像即可重建出几何精确且纹理逼真的高保真 3D 犬类模型,有效解决了单目动物重建中因自遮挡和细节缺失导致的几何失真与纹理不一致问题。

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs