cs.CV articoli | Gist.Science

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Il paper presenta MASQuant, un nuovo framework di quantizzazione post-allenamento che risolve le sfide di allineamento e invarianza computazionale nei modelli linguistici multimodali attraverso una tecnica di smoothing consapevole della modalità e una compensazione incrociata basata sulla decomposizione SVD.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Il paper propone la Ricostruzione Contrastiva Diffusiva (DCR), un metodo che integra segnali contrastivi derivati dalle immagini ricostruite nel processo di diffusione per bilanciare la capacità discriminativa e la percezione dei dettagli, superando così i limiti degli encoder visivi CLIP.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Il paper presenta Meta-D, un'architettura che sfrutta i metadati categorici degli scanner per guidare l'estrazione delle caratteristiche, migliorando significativamente sia la rilevazione dei tumori cerebrali che la segmentazione in presenza di modalità mancanti.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Questo lavoro dimostra che, superando le lacune dei dataset esistenti e integrando prior DINOv3, un modello leggero addestrato su un piccolo dataset di dati polarimetrici realistici può superare sia i metodi SfP precedenti sia i modelli foundation basati solo su RGB per la stima delle normali superficiali, offrendo un'efficienza superiore in termini di dati e parametri.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Il paper propone il framework CAD (Class-specific Augmentation based Disentanglement), una soluzione innovativa che mitiga l'intreccio delle istanze nell'apprendimento da etichette parziali dipendenti dall'istanza regolando le caratteristiche intra-classe e applicando penalità inter-classe per migliorare la chiarezza dei confini tra le classi.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Il paper propone SADCA, un attacco avversario semantico-aumentato e dinamicamente contrastivo che migliora significativamente la trasferibilità degli esempi ostili nei modelli visione-linguaggio rompendo progressivamente l'allineamento cross-modale attraverso interazioni guidate semanticamente.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Il paper propone MPCAttack, un nuovo framework di attacco avversario collaborativo multi-paradigma che migliora la trasferibilità degli esempi avversari contro i modelli linguistici multimodali (MLLM) ottimizzando congiuntamente le rappresentazioni semantiche visive e testuali per superare i limiti dei metodi esistenti.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat è un framework che migliora la ricostruzione 3D ottimizzando congiuntamente pose e aspetto durante l'addestramento dello Splatting Gaussiano 3D, preservando le tracce delle feature SfM come ancoraggi geometrici espliciti per prevenire la deriva della posa e superare le prestazioni dei metodi basati su COLMAP o privi di COLMAP.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Questo lavoro propone un metodo di previsione dei teoremi privo di addestramento che, superando il collo di bottiglia della "deriva strutturale" nell'apprendimento contestuale tramite l'uso di Grafi di Precedenza dei Teoremi e vincoli topologici espliciti, raggiunge prestazioni competitive con i modelli supervisionati sul benchmark FormalGeo7k.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Questo studio presenta una pipeline video monoculare basata su DreamPose3D che, recuperando 18 metriche biomeccaniche da riprese televisive con alta precisione, abilita uno screening scalabile del rischio di infortunio per i lanciatori di baseball, offrendo un'alternativa praticabile ai costosi sistemi di motion capture negli stadi.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

Il paper presenta SURE, un framework di abbinamento delle caratteristiche semi-denso che migliora l'affidabilità delle corrispondenze tra immagini in scenari difficili prevedendo sia le coordinate che la loro incertezza attraverso un approccio basato su evidenze.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Il paper presenta PNG, un nuovo framework basato sulla diffusione che genera rumore realistico in immagini sRGB utilizzando rappresentazioni apprese tramite prompt, eliminando la dipendenza dai metadati della fotocamera e migliorando così la generalizzabilità della sintesi del rumore per la rimozione del rumore reale.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Questo studio dimostra che è possibile prevedere con un'accuratezza dell'80,4% il tipo di lancio di baseball analizzando esclusivamente la cinematica 3D del corpo del lanciatore, rivelando che la meccanica del busto e la posizione del polso sono i fattori più determinanti, mentre le varianti di presa non sono distinguibili dal movimento corporeo.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Questo lavoro propone un nuovo framework a due stadi per la generazione automatica di referti tomografici (CTRG) che, sfruttando un apprendimento contrastivo immagine-testo guidato dall'osservazione delle strutture anatomiche e tecniche di mitigazione dei falsi negativi, supera le prestazioni attuali migliorando l'efficienza clinica.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Il paper presenta DeformTrace, un modello innovativo basato su stati spaziali deformabili e token di relay che supera le limitazioni delle tecniche attuali per la localizzazione temporale delle falsificazioni, offrendo prestazioni all'avanguardia con maggiore efficienza e robustezza.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Il paper propone FedMEPD, un nuovo framework di apprendimento federato che utilizza encoder specifici per modalità e decoder di fusione parzialmente personalizzati per affrontare l'eterogeneità intermodale e le esigenze di personalizzazione nella segmentazione dei tumori cerebrali multimodale.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Il paper propone FedAFD, un quadro unificato per l'apprendimento federato multimodale che, attraverso allineamento avversariale, fusione adattiva e distillazione guidata dalla similarità, risolve le sfide dell'eterogeneità dei dati e dei modelli per migliorare le prestazioni sia lato client che server.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Questo lavoro presenta un metodo semplice ed efficace per migliorare le prestazioni di segmentazione dei Vision Transformer, introducendo un kernel gaussiano apprendibile che modula l'attenzione verso i patch vicini, ottenendo significativi guadagni su benchmark di segmentazione senza compromettere le capacità di classificazione o richiedere modifiche al regime di addestramento.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Il paper propone FC-VFI, un metodo innovativo per l'interpolazione video che sfrutta modelli di diffusione pre-addestrati con nuove strategie di modellazione temporale e una funzione di perdita specifica per generare video ad alta fedeltà e coerenza a 120 e 240 FPS, superando i limiti di fedeltà e consistenza temporale delle tecniche esistenti.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Il paper propone AdaIAT, un metodo che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala adattivamente aumentando l'attenzione sui token generati, riducendo così gli errori visivi senza compromettere la coerenza linguistica o causare descrizioni ripetitive.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

← Precedente Successivo →