cs.CV articoli | Gist.Science

World Guidance: World Modeling in Condition Space for Action Generation

Il paper presenta WoG (World Guidance), un framework che migliora la generazione di azioni nei modelli Vision-Language-Action mappando le osservazioni future in condizioni compatte all'interno del processo di inferenza, ottenendo così una modellazione del mondo efficace che garantisce una generazione di azioni più precisa e una migliore generalizzazione.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Questo lavoro propone un metodo robusto per il riconoscimento dei segnali chilometrici nei metropolitane, basato su modelli fondazionali pre-addestrati e sull'integrazione di dati RGB ed eventi, accompagnato dal rilascio del primo grande dataset sincronizzato EvMetro5K per affrontare le sfide di illuminazione e velocità.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Gli autori propongono RT-RMOT, un nuovo compito di tracciamento multi-oggetto referenziato che fonde dati RGB e termici, supportato dal primo dataset multimodale RefRT e dal framework RTrack basato su un modello linguistico multimodale ottimizzato con strategie di apprendimento per rinforzo per garantire prestazioni robuste in condizioni di scarsa visibilità.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

Il paper presenta SPGen, un nuovo modello di deep learning che utilizza l'adattamento di dominio non supervisionato e un campionatore di rumore casuale per generare scanpath stocastici realistici per le opere d'arte, superando le limitazioni dei metodi esistenti nel prevedere l'attenzione visiva umana.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

Il paper presenta AutoSew, un approccio automatico basato su reti neurali grafiche e geometria che prevede le corrispondenze di cucitura direttamente dai contorni dei pattern 2D, superando i metodi esistenti grazie a un nuovo dataset annotato e ottenendo un'accuratezza del 96% senza richiedere input manuali.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

Il paper propone NESTOR, un operatore neurale basato su un framework Mixture-of-Experts annidato che combina dipendenze globali e locali per il pre-addestramento su larga scala di equazioni differenziali parziali, migliorando significativamente generalizzazione e trasferibilità rispetto agli approcci esistenti.

Dengdi Sun, Xiaoya Zhou, Xiao Wang + 4 more2026-02-26🤖 cs.AI

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

Il paper presenta AdaSpot, un framework efficiente che risolve il problema della localizzazione temporale precisa degli eventi nei video combinando l'elaborazione a bassa risoluzione con la selezione adattiva e non supervisionata di regioni di interesse ad alta risoluzione, ottenendo così prestazioni all'avanguardia senza costi computazionali eccessivi.

Artur Xarles, Sergio Escalera, Thomas B. Moeslund + 1 more2026-02-26💻 cs

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

WeatherCity è un nuovo framework che ricostruisce scene urbane 4D ad alta fedeltà e ne permette la trasformazione controllata in diverse condizioni meteorologiche, superando le limitazioni dei metodi esistenti attraverso una rappresentazione gaussiana specifica per il meteo e un modello fisico-driven per simulare effetti dinamici coerenti.

Wenhua Wu, Huai Guan, Zhe Liu + 1 more2026-02-26💻 cs

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

Il paper presenta Brain3D, un framework vision-language a tre stadi che utilizza trasformatori visivi 3D inflazionati per generare automaticamente rapporti radiologici clinici da risonanze magnetiche cerebrali volumetriche, ottenendo una precisione clinica significativamente superiore rispetto ai modelli basati su slice 2D.

Mariano Barone, Francesco Di Serio, Giuseppe Riccio + 4 more2026-02-26💻 cs

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Il paper presenta GeoDiv, un nuovo framework che utilizza modelli linguistici e vision-language per misurare sistematicamente la diversità geografica nei modelli di generazione immagini, rivelando come questi ultimi tendano a rafforzare stereotipi e a rappresentare in modo distorto e impoverito paesi come India, Nigeria e Colombia.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri + 2 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

Il paper presenta Lumosaic, un sistema attivo e compatto per la cattura di video iperspettrali in tempo reale che combina un array LED a banda stretta con una fotocamera a pixel a esposizione codificata e un processo di ricostruzione basato sull'apprendimento per ottenere ricostruzioni spettralmente accurate e temporalmente coerenti anche in presenza di movimento.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess

WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

Il paper presenta WeaveTime, un framework efficiente e indipendente dal modello che risolve il problema dell'agnosticismo temporale nei Video-LLM introducendo un obiettivo di ricostruzione temporale per l'apprendimento dell'ordine e una cache di focus dinamico per la gestione della memoria in streaming, migliorando così accuratezza e latenza nei contesti online.

Yulin Zhang, Cheng Shi, Sibei Yang2026-02-26💻 cs

MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining

Il paper presenta MedTri, un framework di normalizzazione che trasforma i referti medici liberi in triplette strutturate basate sull'anatomia, migliorando significativamente la qualità del pre-addestramento visione-linguaggio medico rispetto ai dati grezzi e alle tecniche esistenti.

Yuetan Chu, Xinhua Ma, Xinran Jin + 2 more2026-02-26💻 cs

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Il paper presenta NoLan, un framework senza addestramento che mitiga le allucinazioni di oggetti nei modelli visione-linguaggio su larga scala sopprimendo dinamicamente i prior linguistici del decoder, che l'analisi ha identificato come la causa principale di tale fenomeno.

Lingfeng Ren, Weihao Yu, Runpeng Yu + 1 more2026-02-26💬 cs.CL

CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness

Il paper presenta CASR, un framework ciclico efficiente che risolve il problema dello spostamento distributivo nella super-risoluzione a scala arbitraria allineando le distribuzioni strutturali e sfruttando l'autosimilarità per garantire inferenze stabili e di alta qualità anche a ingrandimenti estremi.

Wenhao Guo, Zhaoran Zhao, Peng Lu + 3 more2026-02-26💻 cs

Mixed Magnification Aggregation for Generalizable Region-Level Representations in Computational Pathology

Il paper propone un nuovo encoder di aggregazione a livello di regione che fonde rappresentazioni di tile a diverse magnificazioni tramite un preaddestramento con mascheramento, migliorando le prestazioni predittive per vari biomarcatori tumorali grazie a una migliore cattura del contesto spaziale e multi-risoluzione nelle immagini patologiche.

Eric Zimmermann, Julian Viret, Michal Zelechowski + 7 more2026-02-26💻 cs

Off-The-Shelf Image-to-Image Models Are All You Need To Defeat Image Protection Schemes

Questo studio dimostra che i modelli generativi immagine-su-immagine pronti all'uso possono essere riproposti come denoiser generici tramite semplici prompt testuali per aggirare con successo e superare gli attacchi esistenti una vasta gamma di schemi di protezione delle immagini, rivelando così una vulnerabilità critica che offre una falsa sicurezza.

Xavier Pleimling, Sifat Muhammad Abdullah, Gunjan Balde + 4 more2026-02-26🤖 cs.AI

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

Il paper introduce WHOLE, un metodo che ricostruisce in modo olistico e coerente la dinamica congiunta di mani e oggetti nello spazio mondiale partendo da video egocentrici, superando le limitazioni delle tecniche attuali che trattano separatamente le due entità.

Yufei Ye, Jiaman Li, Ryan Rong + 1 more2026-02-26💻 cs

Towards Attributions of Input Variables in a Coalition

Questo articolo affronta la sfida di partizionare le variabili di input nei metodi di attribuzione per l'IA spiegabile, proponendo una nuova metrica basata sui valori di Shapley per coalizioni che risolve i conflitti attributivi derivanti dalle interazioni AND-OR e ne valuta la fedeltà attraverso tre indicatori, validati sperimentalmente su diversi domini.

Xinhao Zheng, Huiqi Deng, Quanshi Zhang2026-02-25🤖 cs.AI

Interpretable Medical Image Classification using Prototype Learning and Privileged Information

Il lavoro propone Proto-Caps, un modello innovativo che combina reti a capsule, apprendimento per prototipi e informazioni privilegiate per ottenere una classificazione interpretabile e ad alte prestazioni delle immagini mediche, dimostrando sul dataset LIDC-IDRI una precisione superiore del 6% rispetto ai modelli di riferimento mantenendo al contempo la capacità di fornire ragionamenti basati su casi visivamente verificabili.

Luisa Gallee, Meinrad Beer, Michael Goetz2026-02-25🤖 cs.AI

← Precedente Successivo →