cs.CV articoli | Gist.Science

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Il paper propone un metodo senza addestramento chiamato "Dynamic Multimodal Activation Steering" che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala intervenendo dinamicamente su specifici sottogruppi di attention heads durante l'inferenza, selezionando vettori di steering contestualmente rilevanti basati sulla similarità semantica.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

Il paper introduce SurGo-R1, un modello basato su RLHF e un nuovo benchmark per il ragionamento contestuale nelle zone operative della chirurgia minimamente invasiva, che supera significativamente le capacità dei modelli visivo-linguistici esistenti identificando prima la fase chirurgica e poi determinando le zone sicure con alta precisione.

Guanyi Qin, Xiaozhen Wang, Zhu Zhuo + 7 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Questo lavoro estende un metodo di ricostruzione basato su modelli per l'adattamento spaziale della sparsità nei dizionari convoluzionali, migliorando l'invarianza alle permutazioni dei filtri e la flessibilità di inferenza, e dimostra una maggiore robustezza rispetto ai metodi deep learning puri nella risonanza magnetica a basso campo, specialmente di fronte a distribuzioni di dati diverse da quelle di addestramento.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Lo studio dimostra che un framework di deep learning basato su U-Net per la delimitazione dei popolamenti forestali raggiunge prestazioni comparabili utilizzando sia modelli di altezza della chioma derivati da laser scanning aereo (ALS) che da fotogrammetria aerea (DAP), confermando che quest'ultima, pur con dettagli strutturali ridotti, può sostituire efficacemente l'ALS e che l'aggiunta di un modello digitale del terreno non migliora ulteriormente i risultati.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Questo lavoro propone un metodo innovativo per la segmentazione dei denti che combina un codificatore a tre stadi con rappresentazioni gerarchiche delle caratteristiche e una modellazione bidirezionale della sequenza per migliorare la precisione e l'efficienza computazionale rispetto alle tecniche esistenti.

Xinxin Zhao, Jian Jiang, Yan Tian + 5 more2026-02-26💻 cs

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

Il paper propone TranX-Adapter, un adattatore di fusione leggero che risolve il problema della diluizione dell'attenzione nelle caratteristiche di artefatto integrando efficientemente artefatti e semantica nei modelli linguistici multimodali per migliorare la rilevazione delle immagini generate dall'IA.

Wenbin Wang, Yuge Huang, Jianqing Xu + 5 more2026-02-26💻 cs

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

SigVLP è un nuovo modello di pre-addestramento auto-supervisionato che utilizza incorporamenti di posizione rotazionali e allineamento testo-volume granulare per apprendere rappresentazioni adattive da volumi CT di dimensioni variabili, superando i limiti dei metodi tradizionali basati su crop o interpolazione.

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci + 4 more2026-02-26💻 cs

Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

Questo lavoro propone un nuovo paradigma "Structure-to-Image" che, introducendo la congruenza di fase e un vincolo strutturale cross-livello, supera il divario tra simulazione e realtà per la stima della profondità in colonoscopia, ottenendo una riduzione significativa dell'errore RMSE rispetto ai metodi esistenti.

Juan Yang, Yuyan Zhang, Han Jia + 2 more2026-02-26💻 cs

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

Il paper presenta LiREC-Net, una rete di calibrazione basata sull'apprendimento e priva di target che, all'interno di un framework unificato, calibra simultaneamente con alta precisione LiDAR, RGB e dati event, superando i limiti dei metodi esistenti dedicati solo a coppie bi-modali.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Il paper propone un framework di parallelismo ibrido che combina la partizione dei dati basata sulla guida condizionale con una schedulazione adattiva del pipeline per accelerare l'inferenza dei modelli di diffusione, riducendo significativamente la latenza su GPU multiple senza compromettere la qualità dell'immagine.

Euisoo Jung, Byunghyun Kim, Hyunjin Kim + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

Il paper propone SAPNet++, un'architettura che risolve le ambiguità di granularità e l'incertezza dei confini nella segmentazione istanziale guidata da punti singoli integrando guida basata sulla distanza, mining di box, una strategia di selezione delle proposte arricchita da punteggi di completezza spaziale (S-MIL) e affinamento multi-livello dell'affinità.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Questo articolo presenta CUPID, un nuovo framework di machine unlearning che risolve il problema del "shortcut unlearning" nei modelli distorti, permettendo loro di dimenticare efficacemente i dati specifici evitando di perdere le correlazioni spurie che ne migliorano paradossalmente l'accuratezza.

JuneHyoung Kwon, MiHyeon Kim, Eunju Lee + 3 more2026-02-26🤖 cs.LG

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Il paper propone FAQ, un nuovo benchmark su larga scala che valuta e potenzia le capacità di ragionamento temporale dei modelli Vision-Language nel rilevamento di deepfake video attraverso una gerarchia di compiti che va dalla percezione facciale statica alla localizzazione di artefatti dinamici e al ragionamento forense.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

Il paper presenta XStreamVGGT, un approccio senza necessità di riaddestramento che ottimizza l'inferenza streaming per la ricostruzione 3D tramite la compressione della cache KV mediante pruning e quantizzazione, riducendo drasticamente l'uso di memoria e la latenza senza compromettere le prestazioni.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

Il paper propone GeoMotion, un approccio completamente basato sull'apprendimento che supera le limitazioni dei metodi tradizionali di segmentazione del movimento eliminando la stima esplicita delle corrispondenze e sfruttando invece la geometria 4D latente e meccanismi di attenzione per ottenere prestazioni all'avanguardia in modo efficiente e end-to-end.

Xiankang He, Peile Lin, Ying Cui + 3 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Il paper introduce StoryMovie, un dataset di 1.757 storie allineate a script e sottotitoli cinematografici che, utilizzato per addestrare il modello Qwen Storyteller3, dimostra come l'allineamento semantico migliori significativamente l'attribuzione dei dialoghi e la coerenza narrativa rispetto alla sola grounding visiva.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

Il paper propone Meta-FC, un nuovo approccio di meta-apprendimento con coerenza delle caratteristiche che supera i limiti della strategia SRD nel watermarking profondo, migliorando significativamente la robustezza e la generalizzabilità del modello attraverso l'identificazione di attivazioni neuronali stabili e la riduzione dei conflitti di ottimizzazione causati dalle distorsioni.

Yuheng Li, Weitong Chen, Chengcheng Zhu + 4 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Questo articolo presenta un framework chiamato Learning-to-Re-Prompt (L2RP) che studia la propagazione degli errori di annotazione nella segmentazione video di Barrett e impara una politica adattiva per intervenire strategicamente con l'esperto, bilanciando così il costo umano e la precisione nella segmentazione.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Il paper presenta DynamicGTR, un framework che potenzia le capacità dei Modelli Linguistici Visivi nel rispondere a domande su grafi selezionando dinamicamente la rappresentazione topologica ottimale per ogni query, migliorando così accuratezza, efficienza e trasferibilità su compiti reali senza necessità di ulteriore addestramento.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Il paper propone GFPL, un nuovo framework di apprendimento federato che utilizza la generazione di prototipi basata su GMM e una strategia di aggregazione tramite distanza di Bhattacharyya per migliorare l'accuratezza nei task visivi con dati sbilanciati e risorse limitate, riducendo al contempo il sovraccarico di comunicazione.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

← Precedente Successivo →