cs.CV papers | Gist.Science

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Deze paper introduceert een methode voor het genereren van viewpoint-consistente 3D-adversariële texturen via differentieerbare rendering, die de kwetsbaarheid van visuele robotbeleid voor perceptuele aanvallen blootlegt en effectief blijft onder dynamische camerahoeken.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Dit artikel presenteert een aangepast dataset en een evaluatie van 3D-detectie- en trackingmethodes voor het lokaliseren van personen vanuit een LiDAR-sensor op een kraan in een industriële omgeving, waarbij VoxelNeXt en SECOND de beste prestaties leveren binnen een straal van 5 meter.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Dit artikel presenteert een nieuw, interpreteerbaar, op prototypes gebaseerd zwak-toezichtend framework voor het automatisch graden van prostaatkanker uit histopathologische beelden, dat door het nabootsen van het pathologisch vergelijkingsproces en het gebruik van dynamische aandachtmechanismen zowel hoge prestaties als vertrouwen biedt voor klinische toepassingen.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

Dit paper introduceert TimeWarp, een benchmark die de kwetsbaarheid van webagenten voor veranderingen in webontwerp blootlegt, en presenteert TimeTraj, een algoritme dat via plan-distillatie over meerdere UI-versies de prestaties en robuustheid van deze agenten aanzienlijk verbetert.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Deze paper introduceert een locatiebewust pretrainingsframework met specifieke taken zoals automatisch verwijzende expressies en grounded captioning, dat een verbeterde visuele encoder leert om subtiele verschillen in medische beelden te detecteren en zo state-of-the-art prestaties bereikt voor differentiële visuele vraag-antwoordtaken op thoraxröntgenfoto's.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

VisionPangu is een compact multimodaal model van 1,7 miljard parameters dat, door gebruik te maken van een InternVL-visionencoder, de OpenPangu-taalbackbone en gedetailleerde menselijke beschrijvingen uit het DOCCI-dataset, concurrerende prestaties levert bij het genereren van gestructureerde en rijke afbeeldingsbeschrijvingen zonder afhankelijk te zijn van agressieve schaalvergroting.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Deze paper introduceert een nieuwe camera-modellering met een schrijnkingsparameter die de stabiliteit van orthografische projectie combineert met het effect van perspectiefvervorming, waardoor monocular 3DMM-regressiemethoden effectiever worden voor close-up beelden, zoals die van head-mounted camera's.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Dit paper introduceert BiEvLight, een hiërarchisch framework dat taakbewuste gebeurtenisverfijning via bi-niveau-lering toepast om de prestaties van beeldverbetering bij weinig licht te maximaliseren door de inherente afhankelijkheid tussen gebeurtenisruisverwijdering en beeldenhancement te benutten.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Dit paper introduceert 3D-RFT, het eerste framework dat Reinforcement Learning met verifieerbare beloningen toepast op videobased 3D-scènebegrip om het model direct te optimaliseren op evaluatiemetrics en zo state-of-the-art prestaties te behalen die zelfs grotere modellen overtreffen.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Het paper introduceert VideoHV-Agent, een multi-agent framework voor het begrijpen van lange video's dat de redeneerprocessen herformuleert als een gestructureerd hypothese-verificatieproces om semantische drift te voorkomen en de nauwkeurigheid te verhogen.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Dit paper introduceert Wallaroo, een eenvoudig autoregressief model dat via next-token-predicatie multimodale beeldbegrip, -generatie en -bewerking verenigt, terwijl het ook multi-resolutie-invoer en tweetalige ondersteuning biedt.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

TAPFormer is een transformer-gebaseerd framework dat door middel van een innovatieve mechanisme voor transiënte asynchrone fusie en cross-modale lokaal gewogen fusie robuuste en nauwkeurige tracking van willekeurige punten realiseert door RGB-beelden en event-stromen adaptief te combineren, zelfs onder uitdagende omstandigheden zoals bewegingsonscherpte en slechte verlichting.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

MultiGO++ is een nieuw raamwerk dat monokulaire 3D-reconstructie van beklede mensen verbetert door een effectieve samenwerking tussen geometrie en textuur te realiseren via een multi-bron textuursynthesestrategie, een regio-bewuste vormextractiemodule en een dual reconstruction U-Net.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Deze paper introduceert Lens2Zernike, een deep learning-framework dat fysiek consistente optische parameters blind herstelt uit enkele wazige mobiele foto's door supervisie te combineren over Zernike-coëfficiënten, golfvoorde-afgeleiden en ruimtelijke kaarten, wat leidt tot een aanzienlijk verbeterde en stabielere herstelkwaliteit vergeleken met bestaande methoden.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Dit artikel presenteert een uitgebreide studie over Generatieve Beeldherstel die, via een nieuwe multidimensionale evaluatie, aantoont dat het veld is verschoven van het oplossen van detailtekort naar het beheersen van overgeneratie en semantische controle, terwijl het ook een nieuwe IQA-model introduceert die beter aansluit bij menselijke perceptie.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Het artikel introduceert Tell2Adapt, een unifyd framework voor source-free unsupervised domain adaptatie dat visuele foundation-modellen gebruikt om via contextbewuste promptregulering en visuele plausibiliteitsverfijning robuuste medische beeldsegmentatie over diverse klinische domeinen en anatomische doelen te realiseren.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Dit artikel introduceert Semap, een nieuw open benchmarkdataset, en een veelzijdig segmentatiekader dat procedurale datasynthese combineert met multischaalintegratie om robuuste en generaliseerbare semantische segmentatie van heterogene historische kaartcollecties mogelijk te maken.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Deze paper introduceert IRTTA, een methode die tijdens de testtijd de informatieve tussenstappen van iteratieve reconstructie in optische coherentietomografie benut om de segmentatieprestaties van een bevroren model te verbeteren en onzekerheid te schatten zonder de reconstructie of het oorspronkelijke model aan te passen.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Dit paper introduceert CoIn3D, een generaliseerbaar framework voor multi-camera 3D-objectdetectie dat de overdracht naar nieuwe cameraconfiguraties verbetert door ruimtelijke priors expliciet te integreren via ruimtelijke bewust feature-modulatie en camera-bewuste data-augmentatie.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Deze paper introduceert CLIP-PZSL, een nieuw raamwerk dat CLIP en een semantische mijnbouwmodule combineert om zero-shot learning te verbeteren door labelambiguïteit aan te pakken via een progressieve identificatie van grondwaarheid en een aangepaste verliesfunctie.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

← Vorige Volgende →