cs.CV articoli | Gist.Science

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Il paper presenta DL³M, un framework che combina il modello ibrido MobileCoAtNet per la classificazione di immagini endoscopiche con grandi modelli linguistici per generare ragionamenti clinici strutturati, evidenziando come, sebbene una classificazione accurata migliori la qualità delle spiegazioni, gli attuali LLM rimangano ancora inaffidabili per le decisioni mediche ad alto rischio a causa della loro instabilità.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

Il paper propone FALCON-SFOD, un framework per l'object detection senza sorgente che migliora l'attenzione agli oggetti nello spazio delle caratteristiche sfruttando i prior dei modelli fondazionali tramite regolarizzazione spaziale e un'etichettatura pseudo robusta al rumore, superando così i limiti degli approcci basati su Mean-Teacher.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Il paper presenta REVEALER, un framework unificato che utilizza il ragionamento visivo guidato dal rinforzo per valutare con precisione e interpretabilità l'allineamento tra testo e immagine a livello di elementi, superando le prestazioni degli attuali metodi di valutazione.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

Il paper introduce Object-WIPER, un framework senza addestramento che rimuove oggetti dinamici e i loro effetti visivi dai video utilizzando un modello di diffusione pre-addestrato, garantendo un'inpainting coerente nel tempo e nello spazio senza necessità di riaddestramento.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Il paper presenta LookBench, un benchmark aperto, dinamico e olistico per il recupero di immagini di moda in contesti e-commerce reali, che integra dati provenienti da siti web live e immagini generate dall'IA per valutare in modo robusto e aggiornato le prestazioni dei modelli di retrieval.

Gensmo. ai, Chao Gao, Siqiao Xue + 5 more2026-02-24💻 cs

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Il paper introduce PyraTok, un tokenizzatore piramidale allineato al linguaggio che apprende latenti discreti strutturati semanticamente a più risoluzioni spaziotemporali, ottenendo prestazioni all'avanguardia nella ricostruzione, generazione e comprensione zero-shot dei video fino a risoluzioni 4K/8K.

Onkar Susladkar, Tushar Prakash, Adheesh Juvekar + 4 more2026-02-24🤖 cs.AI

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Il paper presenta Emotion-LLaMAv2, un nuovo framework end-to-end con un'architettura di fusione avanzata e un curriculum di addestramento, insieme al benchmark MMEVerse, che aggrega e riannota 12 dataset emotivi per creare un set di dati su larga scala e standardizzato per il ragionamento e il riconoscimento delle emozioni multimodali.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Il paper presenta FineVAU, un nuovo benchmark per la comprensione delle anomalie video che introduce il dataset FineW3 e la metrica di valutazione FVScore, allineata alla percezione umana, per superare i limiti delle valutazioni attuali e rivelare le carenze dei modelli LVLM nell'analisi spaziale e temporale fine delle anomalie.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

Il paper propone RepSFNet, un'architettura leggera e ad alte prestazioni per il conteggio delle folle che utilizza la riparametrizzazione strutturale e la fusione di caratteristiche per ottenere alta precisione e bassa latenza su dispositivi edge.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Il paper propone DyMo, un nuovo framework di selezione dinamica delle modalità a tempo di inferenza che risolve il dilemma tra scarto e imputazione dei dati multimodali incompleti massimizzando le informazioni rilevanti per il compito tramite una funzione di ricompensa basata sulla perdita del task, ottenendo prestazioni superiori rispetto agli stati dell'arte su diversi dataset.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Il paper presenta CMAFNet, una rete di allineamento e fusione cross-modale che integra RGB e profondità attraverso un paradigma di purificazione e fusione per migliorare il rilevamento di difetti su piccole linee di trasmissione, ottenendo prestazioni superiori rispetto agli stati dell'arte su benchmark specifici.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Questo studio presenta un framework ibrido di registrazione e segmentazione per l'analisi di tumori epatici in regime di supervisione debole, dimostrando che, sebbene sia possibile trasferire etichette tra MRI e CT per anatomie visibili, la segmentazione di patologie "invisibili" nel CT rimane una sfida aperta a causa dell'assenza di caratteristiche discriminative.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Questo lavoro presenta LUMIR25, un metodo di registrazione zero-shot che ha ottenuto il primo posto nella sfida Learn2Reg 2025, combinando induttivi bias specifici per la registrazione con strategie di randomizzazione dell'intensità e ottimizzazione istanza-specifica per generalizzare con successo la registrazione T1-T1 a diversi contrasti e domini senza sintesi esplicita delle immagini.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Il paper presenta ViewRope, un metodo di embedding posizionale rotativo consapevole della geometria che, integrando le direzioni dei raggi della camera nei livelli di attenzione dei transformer video, risolve il problema della deriva geometrica nei modelli di mondo video garantendo una coerenza spaziale a lungo termine e riducendo i costi computazionali.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Il paper presenta Agent Banana, un framework agentic gerarchico che risolve le sfide dell'editing di immagini professionali attraverso meccanismi di "Context Folding" e "Image Layer Decomposition" per garantire coerenza multi-turno e fedeltà agli oggetti, validato sul nuovo benchmark ad alta definizione HDD-Bench.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Questo articolo presenta un algoritmo di rilevamento degli oggetti leggero ed efficiente dal punto di vista energetico per i sistemi IoT, basato sul metodo della differenza di frame e ottimizzato su dispositivi edge, che supera significativamente i metodi end-to-end in termini di accuratezza, efficienza e latenza, specialmente per oggetti in rapido movimento come treni e aerei.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Il paper presenta Tele-Omni, un framework multimodale unificato che integra modelli linguistici e generatori basati su diffusione per eseguire compiti di generazione e modifica video tramite istruzioni eterogenee (testo, immagini e video di riferimento) in un unico modello.

Jialun Liu, Tian Li, Xiao Cao + 20 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

Il paper presenta Time2General, un framework per la segmentazione semantica video generalizzabile a nuovi domini che utilizza un decoder di memoria spaziotemporale e una nuova funzione di perdita per garantire stabilità temporale e robustezza alle variazioni di campionamento, eliminando il flicker senza necessità di adattamento al test.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Il paper presenta SAGE, un framework agentico scalabile che genera automaticamente ambienti 3D realistici e fisicamente validi per l'addestramento di agenti embodied, superando i limiti delle pipeline esistenti attraverso un processo iterativo di generazione e valutazione critica.

Hongchi Xia, Xuan Li, Zhaoshuo Li + 9 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Questo paper presenta soluzioni specifiche per la classificazione delle radiografie toraciche che affrontano la scarsità di supervisione dovuta a distribuzioni di malattie sbilanciate e annotazioni mancanti, ottenendo il primo posto nella sfida CXR-LT 2026 grazie a strategie di apprendimento multi-etichetta e zero-shot.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

← Precedente Successivo →

cs.CV

DL3^33M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models