cs.CV articoli | Gist.Science

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

SigVLP è un nuovo modello di pre-addestramento auto-supervisionato che utilizza incorporamenti di posizione rotazionali e allineamento testo-volume granulare per apprendere rappresentazioni adattive da volumi CT di dimensioni variabili, superando i limiti dei metodi tradizionali basati su crop o interpolazione.

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci + 4 more2026-02-26💻 cs

Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

Questo lavoro propone un nuovo paradigma "Structure-to-Image" che, introducendo la congruenza di fase e un vincolo strutturale cross-livello, supera il divario tra simulazione e realtà per la stima della profondità in colonoscopia, ottenendo una riduzione significativa dell'errore RMSE rispetto ai metodi esistenti.

Juan Yang, Yuyan Zhang, Han Jia + 2 more2026-02-26💻 cs

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

Il paper presenta LiREC-Net, una rete di calibrazione basata sull'apprendimento e priva di target che, all'interno di un framework unificato, calibra simultaneamente con alta precisione LiDAR, RGB e dati event, superando i limiti dei metodi esistenti dedicati solo a coppie bi-modali.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Il paper propone un framework di parallelismo ibrido che combina la partizione dei dati basata sulla guida condizionale con una schedulazione adattiva del pipeline per accelerare l'inferenza dei modelli di diffusione, riducendo significativamente la latenza su GPU multiple senza compromettere la qualità dell'immagine.

Euisoo Jung, Byunghyun Kim, Hyunjin Kim + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

Il paper propone SAPNet++, un'architettura che risolve le ambiguità di granularità e l'incertezza dei confini nella segmentazione istanziale guidata da punti singoli integrando guida basata sulla distanza, mining di box, una strategia di selezione delle proposte arricchita da punteggi di completezza spaziale (S-MIL) e affinamento multi-livello dell'affinità.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Questo articolo presenta CUPID, un nuovo framework di machine unlearning che risolve il problema del "shortcut unlearning" nei modelli distorti, permettendo loro di dimenticare efficacemente i dati specifici evitando di perdere le correlazioni spurie che ne migliorano paradossalmente l'accuratezza.

JuneHyoung Kwon, MiHyeon Kim, Eunju Lee + 3 more2026-02-26🤖 cs.LG

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Il paper propone FAQ, un nuovo benchmark su larga scala che valuta e potenzia le capacità di ragionamento temporale dei modelli Vision-Language nel rilevamento di deepfake video attraverso una gerarchia di compiti che va dalla percezione facciale statica alla localizzazione di artefatti dinamici e al ragionamento forense.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

Il paper presenta XStreamVGGT, un approccio senza necessità di riaddestramento che ottimizza l'inferenza streaming per la ricostruzione 3D tramite la compressione della cache KV mediante pruning e quantizzazione, riducendo drasticamente l'uso di memoria e la latenza senza compromettere le prestazioni.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

Il paper propone GeoMotion, un approccio completamente basato sull'apprendimento che supera le limitazioni dei metodi tradizionali di segmentazione del movimento eliminando la stima esplicita delle corrispondenze e sfruttando invece la geometria 4D latente e meccanismi di attenzione per ottenere prestazioni all'avanguardia in modo efficiente e end-to-end.

Xiankang He, Peile Lin, Ying Cui + 3 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Il paper introduce StoryMovie, un dataset di 1.757 storie allineate a script e sottotitoli cinematografici che, utilizzato per addestrare il modello Qwen Storyteller3, dimostra come l'allineamento semantico migliori significativamente l'attribuzione dei dialoghi e la coerenza narrativa rispetto alla sola grounding visiva.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

Il paper propone Meta-FC, un nuovo approccio di meta-apprendimento con coerenza delle caratteristiche che supera i limiti della strategia SRD nel watermarking profondo, migliorando significativamente la robustezza e la generalizzabilità del modello attraverso l'identificazione di attivazioni neuronali stabili e la riduzione dei conflitti di ottimizzazione causati dalle distorsioni.

Yuheng Li, Weitong Chen, Chengcheng Zhu + 4 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Questo articolo presenta un framework chiamato Learning-to-Re-Prompt (L2RP) che studia la propagazione degli errori di annotazione nella segmentazione video di Barrett e impara una politica adattiva per intervenire strategicamente con l'esperto, bilanciando così il costo umano e la precisione nella segmentazione.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Il paper presenta DynamicGTR, un framework che potenzia le capacità dei Modelli Linguistici Visivi nel rispondere a domande su grafi selezionando dinamicamente la rappresentazione topologica ottimale per ogni query, migliorando così accuratezza, efficienza e trasferibilità su compiti reali senza necessità di ulteriore addestramento.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Il paper propone GFPL, un nuovo framework di apprendimento federato che utilizza la generazione di prototipi basata su GMM e una strategia di aggregazione tramite distanza di Bhattacharyya per migliorare l'accuratezza nei task visivi con dati sbilanciati e risorse limitate, riducendo al contempo il sovraccarico di comunicazione.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Questo lavoro presenta un approccio basato su una rete neurale UNet per la regressione dei punti chiave e la localizzazione 3D dei coni nel contesto delle corse autonome, dimostrando prestazioni superiori rispetto ai metodi tradizionali grazie all'utilizzo di un ampio dataset personalizzato e una valutazione end-to-end del sistema di percezione.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

Il paper introduce NESS, un metodo per l'apprendimento continuo che mitiga la catastrofe dell'oblio applicando aggiornamenti dei pesi nello spazio nullo stimato dai valori singolari più piccoli, garantendo così l'adattamento ai nuovi compiti senza interferire con le conoscenze precedenti.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Il paper presenta "Geometry-as-context", un nuovo metodo che modula la generazione video 3D coerente con la scena utilizzando un modello autoregressivo controllato dalla camera per stimare iterativamente la geometria e ricostruire le immagini, superando i limiti di errore accumulato e di non differenziabilità delle tecniche precedenti.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Questo studio presenta CARD-ViT, un framework basato su un Vision Transformer auto-supervisionato addestrato esclusivamente su TC cardiache sincronizzate, che permette di eseguire con successo la valutazione del calcio coronarico anche su scansioni TC non sincronizzate, facilitando così lo screening cardiovascolare su larga scala senza necessità di esami aggiuntivi.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Il paper propone la regolarizzazione D-ODR, un approccio che modella la progressione della retinopatia diabetica come un flusso diretto vincolato per evitare transizioni biologicamente implausibili e migliorare l'accuratezza della classificazione rispetto ai metodi esistenti.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Questo articolo presenta un framework di deep learning leggero basato su MobileNetV3 e CORAL, ottimizzato per dispositivi mobili, che raggiunge un'elevata accuratezza nella valutazione automatica della retinopatia diabetica attraverso l'analisi di immagini del fondo oculare.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

← Precedente Successivo →