StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Het paper introduceert StructSAM, een nieuw token-merging-framework dat de structuur en het spectrum behoudt om de Segment Anything Model (SAM) efficiënter te maken zonder de precisie van randen of prompt-informatie te verliezen.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

Deze paper introduceert Faster-HEAL, een lichtgewicht en privacy-bewust raamwerk dat door middel van low-rank visuele prompts en pyramidale fusie heterogene autonome voertuigen efficiënt aanpast aan een gedeelde perceptie-ruimte, waardoor de detectieprestaties worden verbeterd zonder de privacy te schaden of grote modellen opnieuw te hoeven trainen.

Armin Maleki, Hayder Radha2026-03-10💻 cs

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

De AgrI Challenge introduceert een data-centric AI-framework met Cross-Team Validatie om de generalisatiekloof in landbouwhoogtevisie te overbruggen, waarbij wordt aangetoond dat gezamenlijk trainen op door meerdere teams verzamelde datasets de robuustheid aanzienlijk verbetert ten opzichte van enkelvoudige brontraining.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Dit artikel presenteert een methode om met Vision-Language Models en gestuurde prompts betekenisvolle bijschriften voor afbeeldingen van individuele tanden te genereren, waarmee een hiaat in bestaande datasets wordt gedicht die vaak beperkt zijn tot het volledige gebit of specifieke aandoeningen.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Het artikel introduceert UnSCAR, een schaalbaar en controleerbaar beeldherstelmodel dat door middel van een multi-branch mixture-of-experts-architectuur de interferentieproblemen bij het gezamenlijk leren van meerdere degradaties oplost en zo stabiele prestaties garandeert voor zowel bekende als onbekende vervormingen.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Dit paper introduceert AndroidWorld-Generalization, een benchmark en een schaalbaar RL-trainingsysteem dat Group Relative Policy Optimization (GRPO) combineert om de generalisatie van vision-language-model agents voor mobiele apparaten te evalueren en te verbeteren, waarbij wordt aangetoond dat versterkte leerprestaties significant zijn voor onbekende taakinstanties maar nog beperkt blijven voor onbekende sjablonen en applicaties.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

DogWeave is een modelgebaseerd framework dat uit één RGB-afbeelding hoogwaardige 3D-hondmodellen reconstrueert door parametrische meshen te verfijnen met diffusion-verbeterde normals en onzichtbare gebieden realistisch in te vullen via conditionele inpainting, waardoor het bestaande methoden overtreft in vormnauwkeurigheid en textuurrealisme.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs