cs.CV papers | Gist.Science

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Dit paper introduceert 3D-RFT, het eerste framework dat Reinforcement Learning met verifieerbare beloningen toepast op videobased 3D-scènebegrip om het model direct te optimaliseren op evaluatiemetrics en zo state-of-the-art prestaties te behalen die zelfs grotere modellen overtreffen.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Het paper introduceert VideoHV-Agent, een multi-agent framework voor het begrijpen van lange video's dat de redeneerprocessen herformuleert als een gestructureerd hypothese-verificatieproces om semantische drift te voorkomen en de nauwkeurigheid te verhogen.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Dit paper introduceert Wallaroo, een eenvoudig autoregressief model dat via next-token-predicatie multimodale beeldbegrip, -generatie en -bewerking verenigt, terwijl het ook multi-resolutie-invoer en tweetalige ondersteuning biedt.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

TAPFormer is een transformer-gebaseerd framework dat door middel van een innovatieve mechanisme voor transiënte asynchrone fusie en cross-modale lokaal gewogen fusie robuuste en nauwkeurige tracking van willekeurige punten realiseert door RGB-beelden en event-stromen adaptief te combineren, zelfs onder uitdagende omstandigheden zoals bewegingsonscherpte en slechte verlichting.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

MultiGO++ is een nieuw raamwerk dat monokulaire 3D-reconstructie van beklede mensen verbetert door een effectieve samenwerking tussen geometrie en textuur te realiseren via een multi-bron textuursynthesestrategie, een regio-bewuste vormextractiemodule en een dual reconstruction U-Net.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Deze paper introduceert Lens2Zernike, een deep learning-framework dat fysiek consistente optische parameters blind herstelt uit enkele wazige mobiele foto's door supervisie te combineren over Zernike-coëfficiënten, golfvoorde-afgeleiden en ruimtelijke kaarten, wat leidt tot een aanzienlijk verbeterde en stabielere herstelkwaliteit vergeleken met bestaande methoden.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Dit artikel presenteert een uitgebreide studie over Generatieve Beeldherstel die, via een nieuwe multidimensionale evaluatie, aantoont dat het veld is verschoven van het oplossen van detailtekort naar het beheersen van overgeneratie en semantische controle, terwijl het ook een nieuwe IQA-model introduceert die beter aansluit bij menselijke perceptie.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Het artikel introduceert Tell2Adapt, een unifyd framework voor source-free unsupervised domain adaptatie dat visuele foundation-modellen gebruikt om via contextbewuste promptregulering en visuele plausibiliteitsverfijning robuuste medische beeldsegmentatie over diverse klinische domeinen en anatomische doelen te realiseren.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Dit artikel introduceert Semap, een nieuw open benchmarkdataset, en een veelzijdig segmentatiekader dat procedurale datasynthese combineert met multischaalintegratie om robuuste en generaliseerbare semantische segmentatie van heterogene historische kaartcollecties mogelijk te maken.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Deze paper introduceert IRTTA, een methode die tijdens de testtijd de informatieve tussenstappen van iteratieve reconstructie in optische coherentietomografie benut om de segmentatieprestaties van een bevroren model te verbeteren en onzekerheid te schatten zonder de reconstructie of het oorspronkelijke model aan te passen.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Dit paper introduceert CoIn3D, een generaliseerbaar framework voor multi-camera 3D-objectdetectie dat de overdracht naar nieuwe cameraconfiguraties verbetert door ruimtelijke priors expliciet te integreren via ruimtelijke bewust feature-modulatie en camera-bewuste data-augmentatie.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Deze paper introduceert CLIP-PZSL, een nieuw raamwerk dat CLIP en een semantische mijnbouwmodule combineert om zero-shot learning te verbeteren door labelambiguïteit aan te pakken via een progressieve identificatie van grondwaarheid en een aangepaste verliesfunctie.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Dit onderzoek presenteert een 360-graads multicamera-systeem voor het detecteren van blauwe noodlichten met een nauwkeurigheid van 94,7% door middel van het verbeterde RT-DETR-model met kleuraandacht, getraind op de ABLDataset en ontworpen ter versterking van verkeersveiligheid en ADAS.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

Het artikel introduceert MI-DETR, een bio-geïnspireerde detector voor het vinden van kleine infrarooddoelen die door middel van een dubbel pad voor verschijning en beweging, zonder extra bewegingslabels, een sterke prestatie levert op verschillende benchmarks.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Dit paper introduceert UniM, het eerste benchmarkdataset en evaluatiesuite voor 'any-to-any' interleaved multimodale taken, samen met het UniMA-basismodel om de uitdagingen en vooruitgang van uniforme multimodale intelligentie te onderzoeken.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

MoRe is een efficiënt feed-forward 4D-reconstructienetwerk dat dynamische 3D-scènes uit monokulaire video's herstelt door beweging te ontkoppelen van statische structuren en temporale afhankelijkheden te modelleren, waardoor hoge kwaliteit en real-time prestaties worden bereikt zonder de computatiekosten van bestaande optimalisatiemethoden.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Deze paper introduceert Orster, een nieuw raamwerk dat ruimtelijke en temporele priors van bestaande 3D- en videodiffusiemodellen overdraagt naar een ontkoppelde STD-4D Diffusiemodel met een ST-HexPlane-architectuur om de kwaliteit en consistentie van 4D-generatie aanzienlijk te verbeteren ondanks het gebrek aan grote 4D-datasets.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Deze paper introduceert een nieuwe theorie voor on-manifold Shapley-attributie die gebruikmaakt van optimale generatieve stromen om artefacten te elimineren en wiskundig bewezen stabiele, geometrisch consistente verklaringen voor XAI te leveren.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Het artikel introduceert GEM-TFL, een tweefasig raamwerk dat de prestaties van zwak toezicht op tijdsgebonden vervalsingdetectie aanzienlijk verbetert door EM-gestuurde decompositie, tijdsconsistentie en grafische verfijning te combineren om de kloof met volledig toezicht te overbruggen.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

Diff-ES is een nieuw framework dat via evolutionaire zoektocht een geoptimaliseerd, geheugen-efficiënt structuurpruning-schema voor diffusion-modellen ontwikkelt, waardoor aanzienlijke versnelling wordt bereikt met minimale kwaliteitsverlies.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

← Vorige Volgende →