cs.CV papers | Gist.Science

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Dit paper introduceert MASQuant, een nieuw post-training kwantisatiekader voor multimodale grote taalmodellen dat modale specifieke gladmakingsfactoren en cross-modale compensatie via SVD-witmaking combineert om de uitdagingen van modale onbalans en computationele invariance effectief aan te pakken.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Dit paper introduceert Diffusion Contrastive Reconstruction (DCR), een methode die contrastieve signalen uit gereconstrueerde afbeeldingen integreert in het diffusiemodel om de discriminatieve en detailperceptieve vaardigheden van CLIP te balanceren en zo de visuele representatie te verbeteren.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Dit artikel introduceert Meta-D, een architectuur die MRI-metagegevens zoals sequentie en oriëntatie benut om de prestaties van hersentumor-analyse te verbeteren en robuuste segmentatie mogelijk te maken bij het ontbreken van beeldmodi.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Dit artikel toont aan dat een lichtgewicht model, getraind op een klein, hoogwaardig dataset met gepolariseerde beelden en verrijkt met DINOv3-priors en sensorbewuste augmentatie, de prestaties van zware RGB-only vision foundation modellen voor oppervlaktenormaal-schatting overtreft, waardoor de noodzaak van gespecialiseerde hardware voor polarisatie wordt herbevestigd ondanks de beperkte trainingsdata.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Dit paper introduceert het CAD-framework, een nieuwe methode die instance-entangling in instance-afhankelijk partiële label-leerproblemen aanpakt door intra- en inter-class regulaties te combineren om de klasgrenzen te verduidelijken en de prestaties te verbeteren.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Deze paper introduceert SADCA, een nieuwe aanvalsmethode die de overdraagbaarheid van adversarial voorbeelden op vision-language modellen verbetert door dynamische contrastieve interacties en semantische augmentatie te gebruiken om cross-modale uitlijning progressief te verstoren.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Deze paper introduceert MPCAttack, een nieuw raamwerk dat door het gezamenlijk optimaliseren van visuele en tekstuele representaties via een multi-paradigma strategie de overdraagbaarheid van adversariale aanvallen op Multi-Modal Large Language Models aanzienlijk verbetert.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat is een framework dat tijdens het trainen van 3D Gaussian Splatting een gezamenlijke optimalisatie van pose en uiterlijk uitvoert door expliciete SfM-kenmerksporen als eerste-class entiteiten te behouden, wat leidt tot snellere en nauwkeurigere 3D-reconstructie dan bestaande methoden.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Deze paper introduceert een trainingsvrije aanpak voor meerstaps stellingvoorspelling die gebruikmaakt van Theorem Precedence Graphs om structurele drift te overwinnen en zo 89,29% nauwkeurigheid bereikt op de FormalGeo7k-benchmark, wat de prestaties van bestaande ICL-baselines overtreft en die van gesuperviseerde modellen evenaart.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Dit artikel introduceert een schaalbaar monoculair videopipeline dat 18 klinisch relevante biomechanische metrics voor honkbalpitchers recupereert uit broadcastbeelden, waarmee een effectief risico-screenningsmodel voor blessures mogelijk wordt gemaakt zonder dure stadioncamera's.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

Deze paper introduceert SURE, een semi-dicht kader voor beeldkoppeling dat betrouwbare overeenkomsten en hun onzekerheid gelijktijdig voorspelt door aleatorische en epistemische onzekerheid te modelleren, waardoor het bestaande methoden overtreft in nauwkeurigheid en efficiëntie bij uitdagende scenario's.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Dit artikel introduceert Prompt-Driven Noise Generation (PNG), een nieuw raamwerk dat realistische sRGB-ruis genereert via promptgestuurde leermethoden zonder afhankelijkheid van camerametadata, waardoor de generaliseerbaarheid van ruisonderdrukking in de praktijk aanzienlijk wordt verbeterd.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Deze studie presenteert een interpreteerbaar model dat 80,4% nauwkeurigheid bereikt bij het voorspellen van acht verschillende worptypes in honkbal op basis van monokulaire 3D-lichaamshouding, waarbij bovenlichaamsmechaniek en polspositie als belangrijkste voorspellers worden geïdentificeerd en een empirisch plafond wordt vastgesteld voor worpen die uitsluitend op grip verschillen.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Deze paper introduceert een tweestapskader voor het genereren van CT-rapporten dat structurele beeld-taalkoppelingen leert via contrastief leren en een dynamische negatieve wachtrij, waardoor nieuwe state-of-the-art prestaties worden bereikt op openbare datasets.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Dit paper introduceert DeformTrace, een hybride model dat State Space Models verbetert met vervormbare dynamica en relay-tokens om de precisie, efficiëntie en robuustheid van tijdelijke vervalsingsdetectie in video en audio aanzienlijk te verhogen.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Dit paper introduceert FedMEPD, een federatief leerframework dat modality-specifieke encoders en gedeeltelijk gepersonaliseerde fusie-decoders combineert om intermodale heterogeniteit en lokale personalisatie te adresseren bij multimodale hersentumorsegmentatie, waarbij clients met onvolledige modaliteiten hun representaties calibreren via cross-attention naar globale ankers.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

FedAFD is een geïntegreerd framework voor multimodaal federatief leren dat via een tweeledige adversariale uitlijning, granulariteitsbewuste fusie en een op gelijkenis gebaseerde ensemble-distillatie de uitdagingen van heterogene data en modellen oplost om zowel client- als serverprestaties te verbeteren.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Dit artikel introduceert LocAtViT, een eenvoudige toevoeging aan Vision Transformers die door het moduleren van self-attention met een leerbaar Gaussisch kernel de prestaties op segmentatietaken aanzienlijk verbetert zonder de bestaande classificatiecapaciteiten te schaden.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

In dit artikel wordt FC-VFI voorgesteld, een methode voor trouwe en consistente videoframe-interpolatie die hoge-resolutie video's van 30 fps naar 120 of 240 fps omzet door een tijdsmodelleerstrategie en semantische matching te combineren om zowel visuele fideliteit als bewegingsconsistentie te waarborgen.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Het artikel introduceert AdaIAT, een methode die hallucinaties in Large Vision-Language Models effectief vermindert door de aandacht voor gegenereerde tekst adaptief te verhogen, waardoor de balans tussen nauwkeurigheid en linguïstische coherentie wordt verbeterd zonder herhalende beschrijvingen.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

← Vorige Volgende →