cs.CV articoli | Gist.Science

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Il paper propone DyMo, un nuovo framework di selezione dinamica delle modalità a tempo di inferenza che risolve il dilemma tra scarto e imputazione dei dati multimodali incompleti massimizzando le informazioni rilevanti per il compito tramite una funzione di ricompensa basata sulla perdita del task, ottenendo prestazioni superiori rispetto agli stati dell'arte su diversi dataset.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Il paper presenta CMAFNet, una rete di allineamento e fusione cross-modale che integra RGB e profondità attraverso un paradigma di purificazione e fusione per migliorare il rilevamento di difetti su piccole linee di trasmissione, ottenendo prestazioni superiori rispetto agli stati dell'arte su benchmark specifici.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Questo studio presenta un framework ibrido di registrazione e segmentazione per l'analisi di tumori epatici in regime di supervisione debole, dimostrando che, sebbene sia possibile trasferire etichette tra MRI e CT per anatomie visibili, la segmentazione di patologie "invisibili" nel CT rimane una sfida aperta a causa dell'assenza di caratteristiche discriminative.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Questo lavoro presenta LUMIR25, un metodo di registrazione zero-shot che ha ottenuto il primo posto nella sfida Learn2Reg 2025, combinando induttivi bias specifici per la registrazione con strategie di randomizzazione dell'intensità e ottimizzazione istanza-specifica per generalizzare con successo la registrazione T1-T1 a diversi contrasti e domini senza sintesi esplicita delle immagini.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Il paper presenta ViewRope, un metodo di embedding posizionale rotativo consapevole della geometria che, integrando le direzioni dei raggi della camera nei livelli di attenzione dei transformer video, risolve il problema della deriva geometrica nei modelli di mondo video garantendo una coerenza spaziale a lungo termine e riducendo i costi computazionali.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Il paper presenta Agent Banana, un framework agentic gerarchico che risolve le sfide dell'editing di immagini professionali attraverso meccanismi di "Context Folding" e "Image Layer Decomposition" per garantire coerenza multi-turno e fedeltà agli oggetti, validato sul nuovo benchmark ad alta definizione HDD-Bench.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Questo articolo presenta un algoritmo di rilevamento degli oggetti leggero ed efficiente dal punto di vista energetico per i sistemi IoT, basato sul metodo della differenza di frame e ottimizzato su dispositivi edge, che supera significativamente i metodi end-to-end in termini di accuratezza, efficienza e latenza, specialmente per oggetti in rapido movimento come treni e aerei.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Il paper presenta Tele-Omni, un framework multimodale unificato che integra modelli linguistici e generatori basati su diffusione per eseguire compiti di generazione e modifica video tramite istruzioni eterogenee (testo, immagini e video di riferimento) in un unico modello.

Jialun Liu, Tian Li, Xiao Cao + 20 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

Il paper presenta Time2General, un framework per la segmentazione semantica video generalizzabile a nuovi domini che utilizza un decoder di memoria spaziotemporale e una nuova funzione di perdita per garantire stabilità temporale e robustezza alle variazioni di campionamento, eliminando il flicker senza necessità di adattamento al test.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Il paper presenta SAGE, un framework agentico scalabile che genera automaticamente ambienti 3D realistici e fisicamente validi per l'addestramento di agenti embodied, superando i limiti delle pipeline esistenti attraverso un processo iterativo di generazione e valutazione critica.

Hongchi Xia, Xuan Li, Zhaoshuo Li + 9 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Questo paper presenta soluzioni specifiche per la classificazione delle radiografie toraciche che affrontano la scarsità di supervisione dovuta a distribuzioni di malattie sbilanciate e annotazioni mancanti, ottenendo il primo posto nella sfida CXR-LT 2026 grazie a strategie di apprendimento multi-etichetta e zero-shot.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Il paper introduce MedVAR, il primo modello fondazionale autoregressivo che utilizza la previsione di scala successiva per generare efficientemente immagini mediche multiscala ad alta fedeltà, supportato da un dataset armonizzato di 440.000 immagini CT e MRI.

Zhicheng He, Yunpeng Zhao, Junde Wu + 5 more2026-02-24💻 cs

A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Questo studio presenta un nuovo dataset pubblico per il rilevamento della maturità delle fragole e valuta le prestazioni comparative dei modelli YOLOv8, YOLOv9 e YOLO11, dimostrando che i modelli di piccole e medie dimensioni offrono un equilibrio ottimale per le applicazioni di agricoltura intelligente.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Lo studio dimostra che i modelli visione-linguaggio falliscono nel localizzare accuratamente celle riempite in griglie binarie prive di testo, rivelando che la loro capacità di ragionamento spaziale dipende criticamente da un percorso di riconoscimento testuale che supera di gran lunga le loro abilità visive native.

Yuval Levental2026-02-24🤖 cs.LG

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Il paper presenta ReMoRa, un modello linguistico multimodale che supera le sfide della comprensione di video lunghi elaborando direttamente rappresentazioni di movimento compresse e raffinate, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.

Daichi Yashima, Shuhei Kurita, Yusuke Oda + 1 more2026-02-24💻 cs

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

Il paper presenta StructCore, un metodo di scoring a livello di immagine privo di addestramento che supera il pooling massimo tradizionale nell'individuazione di anomalie non supervisionata calcolando un descrittore strutturale e applicando una calibrazione di Mahalanobis per ottenere prestazioni superiori su dataset come MVTec AD e VisA.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Il paper presenta GraphThinker, un metodo di affinamento basato sul rinforzo che riduce le allucinazioni nel ragionamento video costruendo grafi di scene basati su eventi e integrando un premio di attenzione visiva per migliorare la comprensione delle relazioni causali e il grounding.

Zixu Cheng, Da Li, Jian Hu + 4 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

Il paper presenta DesignAsCode, un nuovo framework che tratta la generazione di design grafici come un compito di sintesi programmatica utilizzando HTML/CSS e un pipeline Plan-Implement-Reflect, superando i limiti delle approcci esistenti garantendo sia un'elevata fedeltà visiva che una dettagliata modificabilità strutturale.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

BLM-Guard è un framework multimodale spiegabile per la moderazione degli annunci video che combina il ragionamento Chain-of-Thought, principi di policy e ricompense guidate da un critico per rilevare con maggiore precisione le manipolazioni visive e le incongruenze cross-modali.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs

Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Questo studio presenta una fedele replica del metodo FedTPG, confermando che la generazione dinamica di prompt guidata dal testo in un contesto di apprendimento federato migliora significativamente la generalizzazione delle vision-language models su classi non viste rispetto ai metodi statici.

Suraj Prasad, Anubha Pant2026-02-24🤖 cs.LG

← Precedente Successivo →