cs.CV papers | Gist.Science

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Het paper introduceert StructSAM, een nieuw token-merging-framework dat de structuur en het spectrum behoudt om de Segment Anything Model (SAM) efficiënter te maken zonder de precisie van randen of prompt-informatie te verliezen.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

Deze paper introduceert Faster-HEAL, een lichtgewicht en privacy-bewust raamwerk dat door middel van low-rank visuele prompts en pyramidale fusie heterogene autonome voertuigen efficiënt aanpast aan een gedeelde perceptie-ruimte, waardoor de detectieprestaties worden verbeterd zonder de privacy te schaden of grote modellen opnieuw te hoeven trainen.

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Dit artikel presenteert een lichtgewicht, op digitale tweeling gebaseerd framework dat objectdetectie en offline padkaarten gebruikt voor real-time voertuigtracking en botsingsvoorspelling op randapparatuur, zonder complexe trajectvoorspellingsmodellen.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

De AgrI Challenge introduceert een data-centric AI-framework met Cross-Team Validatie om de generalisatiekloof in landbouwhoogtevisie te overbruggen, waarbij wordt aangetoond dat gezamenlijk trainen op door meerdere teams verzamelde datasets de robuustheid aanzienlijk verbetert ten opzichte van enkelvoudige brontraining.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Dit paper introduceert NT-Diffusion, een hiërarchisch diffusiemodel dat de rekenkosten verlaagt en de nauwkeurigheid verbetert bij het voorspellen van lange-termijn brandrisico's door het delen van vroege denoising-fasen en het vertakken voor specifieke tijdstippen.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

Uit onderzoek aan makaken blijkt dat het leren van een taak de redundantie van neurale responsen in het visuele cortex verhoogt, wat de hypothese ondersteunt dat het brein informatie via generatieve inferentie optimaliseert in plaats van door redundantie te verminderen.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Dit paper introduceert AQuA, een gedetailleerd dataset en framework dat Vision-Language Models in staat stelt om ambiguïteit in visuele vragen te herkennen en strategisch te reageren door de juiste respons te kiezen, zoals het vragen om verduidelijking of het geven van alternatieve antwoorden, in plaats van overmoedig te antwoorden.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Dit artikel introduceert een interpreteerbaar 3D Concept Bottleneck-model dat morfologische en hemodynamische kenmerken integreert om intracraniële aneurysma's met hoge nauwkeurigheid te classificeren zonder in te leveren op klinische transparantie.

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

Dit technische rapport introduceert VIVECaption, een tweezijdige aanpak die een gestructureerd evaluatietaxonomie combineert met een gefinancierd dataset-creatieproces en modelafstemming om de kwaliteit van beeldbeschrijvingen te verbeteren en zo de prestaties van generatieve AI-modellen te optimaliseren zonder afhankelijk te zijn van auteursrechtelijk beschermde webgegevens.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Dit artikel presenteert een methode om met Vision-Language Models en gestuurde prompts betekenisvolle bijschriften voor afbeeldingen van individuele tanden te genereren, waarmee een hiaat in bestaande datasets wordt gedicht die vaak beperkt zijn tot het volledige gebit of specifieke aandoeningen.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Het artikel introduceert UnSCAR, een schaalbaar en controleerbaar beeldherstelmodel dat door middel van een multi-branch mixture-of-experts-architectuur de interferentieproblemen bij het gezamenlijk leren van meerdere degradaties oplost en zo stabiele prestaties garandeert voor zowel bekende als onbekende vervormingen.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Dit paper introduceert QdaVPR, een nieuw query-gebaseerd, domein-agnostisch model voor visuele plaatsherkenning dat door middel van een dubbel-niveau adversariaal leerframework en triplet-supervisie op synthetische data state-of-the-art prestaties bereikt bij aanzienlijke domeinvariaties.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

In dit paper wordt DTPSR voorgesteld, een diffusion-based framework voor beeldsuperresolutie dat gebruikmaakt van ontkoppelde tekstuele prioren voor ruimtelijke hiërarchie en frequentie-semantiek, ondersteund door het DisText-SR-dataset, om zowel globale structuur als fijne details met hoge precisie en controleerbaarheid te genereren.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Dit paper introduceert AndroidWorld-Generalization, een benchmark en een schaalbaar RL-trainingsysteem dat Group Relative Policy Optimization (GRPO) combineert om de generalisatie van vision-language-model agents voor mobiele apparaten te evalueren en te verbeteren, waarbij wordt aangetoond dat versterkte leerprestaties significant zijn voor onbekende taakinstanties maar nog beperkt blijven voor onbekende sjablonen en applicaties.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Dit paper introduceert Data Agent, een end-to-end dynamisch framework dat dataselectie formuleert als een sequentieel beslissingsprobleem om training te versnellen en kosten te verlagen zonder prestatieverlies, door een adaptieve selectiebeleid te leren dat samen met de modeloptimalisatie evolueert.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Het paper introduceert RPG-SAM, een trainingsvrij een-op-een polyp-segmentatiekader dat regionale en respons-heterogeniteit aanpakt via betrouwbaarheids-gewogen prototypen en geometrisch adaptieve drempelselectie, wat resulteert in een verbeterde nauwkeurigheid op de Kvasir-dataset.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

DogWeave is een modelgebaseerd framework dat uit één RGB-afbeelding hoogwaardige 3D-hondmodellen reconstrueert door parametrische meshen te verfijnen met diffusion-verbeterde normals en onzichtbare gebieden realistisch in te vullen via conditionele inpainting, waardoor het bestaande methoden overtreft in vormnauwkeurigheid en textuurrealisme.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Het paper introduceert Med-Evo, het eerste zelf-evolutieframework voor medische multimodale grote taalmodellen dat labelvrije versterkingsleer toepast via Feature-driven Pseudo Labeling en Hard-Soft Reward om de prestaties te verbeteren zonder extra gelabelde data.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Dit paper introduceert SLNet, een extreem lichtgewicht architectuur voor 3D-puntenwolkherkenning die via NAPE en GMU een hoge nauwkeurigheid bereikt met aanzienlijk minder parameters en rekencost dan bestaande modellen, terwijl het tegelijkertijd een nieuwe NetScore+-metriek voor efficiëntie presenteert.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Dit paper biedt een uitgebreid technisch overzicht van de evolutie van beeldgeneratiemodellen, variërend van VAEs en GANs tot diffusiemodellen, inclusief hun architectuur, trainingsmethoden, beperkingen, recente doorbraken in videogenereatie en de noodzaak van verantwoord gebruik.

Rouzbeh Shirvani2026-03-10💬 cs.CL

← Vorige Volgende →