cs.CV papers | Gist.Science

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Deze paper introduceert Orster, een nieuw raamwerk dat ruimtelijke en temporele priors van bestaande 3D- en videodiffusiemodellen overdraagt naar een ontkoppelde STD-4D Diffusiemodel met een ST-HexPlane-architectuur om de kwaliteit en consistentie van 4D-generatie aanzienlijk te verbeteren ondanks het gebrek aan grote 4D-datasets.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Deze paper introduceert een nieuwe theorie voor on-manifold Shapley-attributie die gebruikmaakt van optimale generatieve stromen om artefacten te elimineren en wiskundig bewezen stabiele, geometrisch consistente verklaringen voor XAI te leveren.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Het artikel introduceert GEM-TFL, een tweefasig raamwerk dat de prestaties van zwak toezicht op tijdsgebonden vervalsingdetectie aanzienlijk verbetert door EM-gestuurde decompositie, tijdsconsistentie en grafische verfijning te combineren om de kloof met volledig toezicht te overbruggen.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

Diff-ES is een nieuw framework dat via evolutionaire zoektocht een geoptimaliseerd, geheugen-efficiënt structuurpruning-schema voor diffusion-modellen ontwikkelt, waardoor aanzienlijke versnelling wordt bereikt met minimale kwaliteitsverlies.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

Het artikel introduceert BLINK, een trajectgebaseerd recurrente state-space-model dat latent interactiedynamiek leert van gedeeltelijk waargenomen NK-tumor sequenties om cytotoxische uitkomsten te voorspellen en interpreteerbare gedragsmodi te onthullen.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

UniPAR is een unificerend Transformer-framework dat een enkel model mogelijk maakt voor het herkennen van voetgangersattributen in diverse data-modi en domeinen, waardoor het de prestaties van gespecialiseerde methoden evenaart en de generalisatie in extreme omstandigheden verbetert.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Deze paper introduceert SRasP, een nieuw crop-global stijlverstorend netwerk dat via zelf-heroriëntatie en een multi-objectieve optimalisatie de stabiliteit van gradiënten verbetert en de generalisatie in cross-domein few-shot learning versterkt door training te sturen naar bredere minima.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Dit artikel introduceert een complexiteitsbewust adaptief inferentiekader voor Vision-Language-Action-modellen dat dynamisch kiest tussen direct handelen, redeneren of het afbreken van taken op basis van de waargenomen situatie, waarbij visuele embeddings worden aangetoond als een efficiënt en betrouwbaar middel voor het detecteren van taakcomplexiteit.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

Dit artikel introduceert SSR-GS, een framework dat door het modelleren van directe en indirecte spiegelreflecties en het toepassen van visueel-geometrische priors de reconstructie van glanzende oppervlakken in 3D Gaussian Splatting significant verbetert.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Dit onderzoek toont aan dat eenvoudige long-cropping een effectieve strategie is om raciale bias in deep learning-modellen voor borstfoto's te verminderen zonder de diagnostische nauwkeurigheid te verliezen.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Dit artikel presenteert een methode voor generieke camerakalibratie met onscherpe afbeeldingen door geometrische beperkingen en een lokaal parametrisch verlichtingsmodel te combineren om gelijktijdig kenmerken en puntverspreidingsfuncties te schatten, waardoor de noodzaak voor een groot aantal beelden wordt verminderd en bewegingsonscherpte effectief wordt aangepakt.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

Mario is een unificerend framework dat grote taalmodellen in staat stelt om effectief te redeneren over multimodale grafen door middel van een graf-geconditioneerde VLM voor kruismodale consistentie en een modaal-adaptieve instructie-tuning-mechanisme dat de meest informatieve modale configuraties selecteert, wat leidt tot superieure prestaties in vergelijking met bestaande modellen.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Het paper introduceert Logi-PAR, het eerste framework dat neurale netwerken combineert met leerbare, differentieerbare logische regels om patiëntactiviteiten in klinische settings niet alleen te herkennen, maar ook auditieve verklaringen en contrafactuele interventies te genereren voor verbeterde veiligheid en zorgkwaliteit.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Deze paper introduceert het SCDL-framework, een plug-and-play module die semantische class-distributies leert om vertekeningen in semi-supervised medische beeldsegmentatie te verminderen en zo de prestaties, vooral voor minderheidsklassen, aanzienlijk verbetert.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Het artikel introduceert SPyCer, een semi-supervised, fysica-gedreven netwerk dat satellietbeelden en oppervlakte-energiebalansmodellen combineert om nauwkeurige en ruimtelijk continue schattingen van de luchttemperatuur nabij het aardoppervlak te genereren, ondanks de beperkte beschikbaarheid van grondmetingen.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Dit artikel presenteert een door een digitale tweeling aangedreven robotisch sortersysteem dat multimodale waarneming en visuele taalmodellen integreert voor het succesvol automatisch sorteren van textiel en het detecteren van vreemde voorwerpen in industriële omgevingen.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Dit artikel introduceert ICHOR, een zelftoezicht-gebaseerde masked autoencoder die is getraind op een groot, divers dataset van ASL CBF-scans om robuuste representaties te leren die de prestaties van bestaande methoden voor diagnostische classificatie en kwaliteitsvoorspelling in neurobeeldvorming verbeteren.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

CATNet is een adaptief compensatiekader dat samenwerking tussen voertuigen verbetert door een unieke combinatie van spatio-temporele synchronisatie, golfkleur-gedreven ruisreductie en adaptieve kenmerkselectie om de uitdagingen van hoge temporale latentie en multi-bronruis in real-world scenario's op te lossen.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Dit paper introduceert Wiki-R1, een curriculum reinforcement learning-framework dat door middel van gecontroleerde data-generatie en een slimme steekproefstrategie multimodale redeneervermogens van modellen verbetert voor kennisgebaseerde visuele vraagbeantwoording, wat leidt tot nieuwe state-of-the-art resultaten op benchmarks zoals Encyclopedic VQA en InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Deze studie toont aan dat voor de optimale out-of-distribution-probing van Vision Transformers de beste prestaties worden behaald door zowel de juiste modellaag als het specifieke moduletype (feedforward-netwerk bij sterke distributieveranderingen versus genormaliseerde self-attention bij zwakke veranderingen) te selecteren.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

← Vorige Volgende →