cs.CV articoli | Gist.Science

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Lo studio dimostra che i modelli visione-linguaggio falliscono nel localizzare accuratamente celle riempite in griglie binarie prive di testo, rivelando che la loro capacità di ragionamento spaziale dipende criticamente da un percorso di riconoscimento testuale che supera di gran lunga le loro abilità visive native.

Yuval Levental2026-02-24🤖 cs.LG

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Il paper presenta ReMoRa, un modello linguistico multimodale che supera le sfide della comprensione di video lunghi elaborando direttamente rappresentazioni di movimento compresse e raffinate, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.

Daichi Yashima, Shuhei Kurita, Yusuke Oda + 1 more2026-02-24💻 cs

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

Il paper presenta StructCore, un metodo di scoring a livello di immagine privo di addestramento che supera il pooling massimo tradizionale nell'individuazione di anomalie non supervisionata calcolando un descrittore strutturale e applicando una calibrazione di Mahalanobis per ottenere prestazioni superiori su dataset come MVTec AD e VisA.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Il paper presenta GraphThinker, un metodo di affinamento basato sul rinforzo che riduce le allucinazioni nel ragionamento video costruendo grafi di scene basati su eventi e integrando un premio di attenzione visiva per migliorare la comprensione delle relazioni causali e il grounding.

Zixu Cheng, Da Li, Jian Hu + 4 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

Il paper presenta DesignAsCode, un nuovo framework che tratta la generazione di design grafici come un compito di sintesi programmatica utilizzando HTML/CSS e un pipeline Plan-Implement-Reflect, superando i limiti delle approcci esistenti garantendo sia un'elevata fedeltà visiva che una dettagliata modificabilità strutturale.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

BLM-Guard è un framework multimodale spiegabile per la moderazione degli annunci video che combina il ragionamento Chain-of-Thought, principi di policy e ricompense guidate da un critico per rilevare con maggiore precisione le manipolazioni visive e le incongruenze cross-modali.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs

Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Questo studio presenta una fedele replica del metodo FedTPG, confermando che la generazione dinamica di prompt guidata dal testo in un contesto di apprendimento federato migliora significativamente la generalizzazione delle vision-language models su classi non viste rispetto ai metodi statici.

Suraj Prasad, Anubha Pant2026-02-24🤖 cs.LG

A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

Il documento presenta COMPASS, un sistema di gemello digitale temporale basato sull'intelligenza artificiale che analizza dati multimodali frazionali per prevedere la tossicità nei pazienti con carcinoma polmonare non a piccole cellule, dimostrando la fattibilità di un approccio di radioterapia adattiva guidato dalle risposte biologiche individuali in evoluzione.

Anvi Sud, Jialu Huang, Gregory R. Hart + 4 more2026-02-24💻 cs

Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality

Il paper presenta MARVUS, un sistema di realtà aumentata mobile ed efficiente che, utilizzando un modello fondazionale, migliora significativamente l'accuratezza e la riproducibilità delle ricostruzioni volumetriche delle lesioni tramite ecografia 2D, riducendo la variabilità inter-operatoria e i costi rispetto alle soluzioni 3D tradizionali.

Kian Wei Ng, Yujia Gao, Deborah Khoo + 7 more2026-02-24💻 cs

Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

Questo studio dimostra che la combinazione di tecniche di riequilibrio dei dati e metodi di disaccoppiamento delle caratteristiche rappresenta l'approccio più efficace per mitigare l'apprendimento di scorciatoie nei modelli di deep learning per l'imaging medico, migliorando la robustezza e la generalizzazione senza compromettere l'efficienza computazionale.

Sarah Müller, Philipp Berens2026-02-24🤖 cs.LG

A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

Questo articolo presenta un framework di visione artificiale basato su una singola telecamera che, utilizzando YOLO e ByteTrack, estrae dati di tracciamento multi-classe da riprese televisive di calcio, offrendo alle squadre con budget limitato un'alternativa economica ai costosi sistemi di tracciamento dedicati.

Daniel Tshiani2026-02-24🤖 cs.AI

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Questo studio introduce un nuovo framework di analisi basato sul ripristino che, utilizzando Sparse Autoencoder, dimostra come la maggior parte dei metodi di "machine unlearning" si limiti a sopprimere le informazioni a livello di output anziché cancellarle realmente dalle rappresentazioni interne, evidenziando la necessità di nuovi criteri di valutazione che verifichino la rimozione effettiva dei dati a livello semantico.

Yurim Jang, Jaeung Lee, Dohyun Kim + 2 more2026-02-24💻 cs

Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Questo studio introduce un nuovo modello stocastico continuo che, integrando dati di tracking potenziati dalla posa per quantificare la visione dei giocatori, supera i limiti dei metodi tradizionali basati sul movimento della testa e dimostra come le metriche visive aggregate siano predittive del successo in gioco, offrendo inoltre strumenti open-source per l'integrazione con le analisi calcistiche esistenti.

Joris Bekkers2026-02-24🤖 cs.LG

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Il paper presenta Sketch2Feedback, un framework "grammar-in-the-loop" che combina rilevamento simbolico e modelli linguistici multimodali per generare feedback grammaticale e allineato alle rubriche su diagrammi STEM, riducendo significativamente le allucinazioni rispetto ai modelli end-to-end e migliorando l'azione del feedback pur mantenendo prestazioni competitive.

Aayam Bansal2026-02-24🤖 cs.AI

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Questo studio valuta se le metriche generative standard possano prevedere le prestazioni di YOLOv11 nell'addestramento con immagini sintetiche, rivelando che l'efficacia dell'aumento dei dati e la correlazione con le metriche dipendono fortemente dalla complessità del dataset e dal regime di addestramento, con guadagni significativi solo in scenari di rilevamento più complessi.

Vasile Marian, Yong-Bin Kang, Alexander Buddery2026-02-24🤖 cs.LG

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Il paper presenta JAEGER, un framework che estende i modelli linguistici audio-visivi alla percezione 3D integrando osservazioni RGB-D e ambisonics multicanale con una nuova rappresentazione audio vettoriale neurale, validato sul benchmark SpatialSceneQA per migliorare il grounding spaziale e il ragionamento in ambienti fisici complessi.

Zhan Liu, Changli Tang, Yuxin Wang + 7 more2026-02-24🤖 cs.AI

Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Questo studio confronta dieci architetture di deep learning per la classificazione di cinque varietà di olive nere turche, dimostrando che EfficientNetV2-S raggiunge la massima accuratezza (95,8%) mentre EfficientNetB0 offre il miglior compromesso tra prestazioni e complessità computazionale, evidenziando come l'efficienza parametrica sia cruciale in contesti con dati limitati.

Hatice Karatas, Irfan Atabas2026-02-24💻 cs

VLANeXt: Recipes for Building Strong VLA Models

Il paper presenta VLANeXt, un modello VLA ottimizzato attraverso un'analisi sistematica delle scelte progettuali che ne dimostra le prestazioni superiori rispetto agli stati dell'arte su benchmark simulati e in esperimenti reali, accompagnato dal rilascio di un codice unificato per la comunità.

Xiao-Ming Wu, Bin Fan, Kang Liao + 6 more2026-02-24🤖 cs.AI

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Questo studio dimostra che la pressione morfologica, sia attraverso descrittori di caratteristiche che attraverso strutture fonologiche di parole inventate, crea gradienti navigabili negli spazi latenti dei modelli di diffusione testo-immagine, permettendo di raggiungere identità visive coerenti e di generare nuovi concetti senza l'uso di dati di addestramento specifici.

Andrew Fraser2026-02-24💻 cs

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Questo studio dimostra che i modelli generativi all'avanguardia per la ricostruzione delle immagini MRI sono altamente vulnerabili a piccole perturbazioni avversarie che inducono allucinazioni, evidenziando la necessità di sviluppare nuove tecniche di rilevamento e addestramento per garantire la sicurezza diagnostica.

Suna Buğday, Yvan Saeys, Jonathan Peck2026-02-24⚡ eess

← Precedente Successivo →