cs.CV papers | Gist.Science

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Deze studie introduceert twee nieuwe fusiestrategieën, RGIF en RGMAF, die registratiebewustzijn en betrouwbaarheidsgebaseerde aandacht gebruiken om de prestaties van UAV-detectie in heterogene thermische en visuele sensoren aanzienlijk te verbeteren.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Video2LoRA is een schaalbaar en efficiënt framework dat een lichtgewicht hypernetwerk gebruikt om gepersonaliseerde LoRA-weights te genereren voor referentievideo's, waardoor semantisch gecontroleerde videoproduktie mogelijk is zonder per-conditie training en met een modelgrootte van minder dan 150MB.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

Het paper introduceert SAVE, een nieuwe methode voor video-tekstretrieval die de prestaties van de huidige staat van de kunst (AVIGATE) significant verbetert door een speciale spraaktak en een zachte vroege visueel-audiatieve uitlijning (soft-ALBEF) te gebruiken om de vaak genegeerde audio-informatie effectiever te benutten.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

Deze paper introduceert SRNeRV, een nieuw recursief raamwerk voor neurale videorepresentatie dat door middel van een hybride delingsschema de parameterredundantie van bestaande multi-schaalgeneratoren oplost en zo de prestaties aanzienlijk verbetert.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

GarmentPainter is een efficiënt raamwerk dat een karaktergeleid diffusiemodel en UV-positiekaarten gebruikt om hoogwaardige, 3D-consistente textuurpatronen voor kleding te genereren zonder strikte ruimtelijke uitlijning tussen referentieafbeeldingen en 3D-meshes.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Dit onderzoek toont aan dat state-of-the-art deep learning-modellen, waaronder vision transformers en foundation modellen, in combinatie met ultra-widefield imaging en frequentiedomeinrepresentaties, zeer effectief zijn voor het beoordelen van beeldkwaliteit, het detecteren van referabele diabetische retinopathie en diabetisch maculair oedeem, waarbij feature-level fusion en Grad-CAM-analyse de robuustheid en uitlegbaarheid verder verbeteren.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Dit paper introduceert SiMO, een nieuw systeem voor collaboratieve waarneming dat door middel van Length-Adaptive Multi-Modal Fusion (LAMMA) en een unieke trainingsstrategie modale uitval effectief opvangt en semantische consistentie behoudt, waardoor het prestaties optimaliseert ongeacht welke sensoren beschikbaar zijn.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Deze paper introduceert een topologisch stabiele variant van de Hough-transformatie die, in plaats van een gediscrétiseerde stemming, een continue scorefunctie en persistente homologie gebruikt om lijnen in puntwolken te detecteren, vergezeld van een efficiënt algoritme voor de berekening van deze kandidaatlijnen.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Dit paper introduceert DynamicVGGT, een uniek feed-forward framework dat VGGT uitbreidt tot dynamische 4D-scèneherconstructie voor autonoom rijden door het gezamenlijk voorspellen van puntkaarten en het gebruik van motion-aware temporal attention en dynamische 3D Gaussian Splatting voor nauwkeurige bewegingsmodellering.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Dit paper introduceert WaDi, een efficiënt distillatiekader dat gebruikmaakt van LoRaD om richtingsveranderingen in de gewichten van diffusion-modellen te modelleren, waardoor state-of-the-art één-staps beeldsynthese wordt bereikt met slechts 10% van de trainbare parameters.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Deze paper introduceert een leervrije methode voor het volgen van 6D objectposities met behulp van event-camera's, die door het fuseren van optische stroom voor voortplanting en een sjabloongebaseerde correctiestrategie superieure prestaties boekt bij snel bewegende objecten in vergelijking met bestaande RGB-D-camera-algoritmen.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

Dit artikel introduceert een methode die gebruikmaakt van conceptprototypen, afgeleid uit de inbeddingsgeometrie van het model, om brede en complexe concepten zoals geweld en seksualiteit betrouwbaar uit diffusiemodellen te verwijderen terwijl de beeldkwaliteit behouden blijft.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Deze paper introduceert OSCAR, een labelvrije methode die op basis van akoestische neurale impliciete representaties onvolledige ultrasone beelden van de wervelkolom omzet in volledige 3D-anatomische modellen om zo de uitdagingen van akoestische schaduwvorming tijdens minimaal invasieve ingrepen te overwinnen.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

Deze paper introduceert SP-CLIP, een lichtgewicht framework dat gebruikmaakt van gestructureerde semantische prompts op verschillende abstractieniveaus om zero-shot actieherkenning aanzienlijk te verbeteren zonder de visuele encoder aan te passen of extra parameters te leren.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Deze paper introduceert een retrieval-versterkte methode voor het genereren van CT-beelden op basis van tekst, die semantische informatie uit radiologieverslagen combineert met opgehaalde anatomische structuren via een ControlNet-branch om zowel de beeldkwaliteit als de klinische consistentie te verbeteren.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Deze paper introduceert een concept-gestuurd fijntuning-framework dat Vision Transformers robuuster maakt tegen distributieveranderingen door hun interne relevantiekaarten automatisch uit te lijnen met semantische objectconcepten, afgeleid van een LLM en VLM, in plaats van te vertrouwen op spurious correlaties zoals achtergronden.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

Deze paper introduceert HDR-NSFF, een nieuw raamwerk dat dynamische HDR-scènes reconstrueert door een verschuiving van 2D-pixelmerging naar 4D ruimtetijdmodellering, wat leidt tot superieure view synthesis en ghosting-reductie in uitdagende belichtingsomstandigheden.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Dit paper introduceert SlowBA, een nieuwe backdoor-aanval op VLM-gebaseerde GUI-agenten die de reactietijd aanzienlijk vertraagt door via een twee-trapsreinforcement learning-strategie specifieke triggers te gebruiken die lange redeneringsketens veroorzaken, terwijl de taaknauwkeurigheid behouden blijft.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Dit onderzoek vergelijkt de prestaties van mensen en AI bij het herkennen van ego-centrische acties en toont aan dat mensen sterk afhankelijk zijn van specifieke, semantische visuele aanwijzingen, terwijl modellen juist meer vertrouwen op contextuele kenmerken en minder gevoelig zijn voor ruimtelijke en tijdelijke verstoringen.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Dit artikel introduceert een algemeen framework voor het evalueren van de kwaliteit van warmtekaarten in multiple instance learning-modellen voor histopathologie, waarbij wordt aangetoond dat methoden zoals perturbation en LRP betrouwbaardere verklaringen bieden dan traditionele attention-mechanismen, wat leidt tot betere modelvalidatie en biologische inzichten.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

← Vorige Volgende →