cs.CV articoli | Gist.Science

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Il paper introduce CHAIN, un nuovo benchmark interattivo 3D basato sulla fisica che valuta la capacità dei modelli Vision-Language di pianificare azioni complesse vincolate da strutture fisiche, rivelando che gli attuali modelli avanzati faticano ancora a comprendere e tradurre in modo affidabile tali vincoli causali in piani d'azione a lungo termine.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

Il paper presenta MIP Candy, un framework PyTorch open-source e modulare progettato per l'elaborazione di immagini mediche, che offre una pipeline completa e flessibile per il training, l'inferenza e la valutazione, permettendo agli utenti di personalizzare facilmente i componenti del modello e integrare strumenti di tracciamento sperimentale.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Il paper presenta CLIPGlasses, un framework plug-and-play che migliora la capacità di CLIP di comprendere descrizioni visive negate senza fine-tuning, utilizzando moduli "Lens" e "Frame" per disentanglare i significati negati e penalizzare le corrispondenze errate, ottenendo così prestazioni superiori, specialmente in scenari cross-domain e con risorse limitate.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

OmniOCR: Generalist OCR for Ethnic Minority Languages

OmniOCR è un framework universale basato su Dynamic LoRA che supera le limitazioni dei modelli esistenti nel riconoscimento ottico dei caratteri per le lingue delle minoranze etniche, ottenendo risultati all'avanguardia su script complessi e a risorse scarse con un'efficienza parametrica superiore.

Bonan Liu, Zeyu Zhang, Bingbing Meng + 5 more2026-02-25💻 cs

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Il paper presenta OCR-Agent, un nuovo framework iterativo di auto-correzione che potenzia i modelli Vision-Language attraverso la riflessione sulle capacità e sulla memoria, permettendo loro di superare i bias cognitivi e raggiungere risultati all'avanguardia nel benchmark OCRBench v2 senza necessità di ulteriore addestramento.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Il paper presenta VAUQ, un framework di quantificazione dell'incertezza consapevole della visione che, misurando quanto l'output di un modello LVLM dipenda dalle evidenze visive tramite un punteggio di informazione sull'immagine e una strategia di mascheramento non supervisionata, offre una valutazione autonoma dell'accuratezza delle risposte superiore ai metodi esistenti.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Questo lavoro propone un nuovo paradigma di addestramento ispirato alla neuroscienza affettiva, che utilizza un framework a doppio modello con aggiornamenti condivisi e attivazione selettiva per migliorare le prestazioni di un modello di base e di uno più grande, riducendo al contempo i costi computazionali.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

Il paper propone ProxyFL, un framework guidato da proxy che utilizza i pesi apprendibili del classificatore come proxy unificati per mitigare simultaneamente l'eterogeneità esterna tra i client e quella interna tra dati etichettati e non etichettati nel contesto dell'apprendimento federato semi-supervisionato.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Questo articolo propone un metodo automatico basato sulla programmazione lineare intera per determinare il posizionamento ottimale dei sensori di profondità a tempo di volo (ToF) negli uffici, al fine di massimizzare l'accuratezza nel rilevamento dell'occupazione delle zone preservando la privacy e ottimizzando il risparmio energetico.

Hao Lu, Richard J. Radke2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Questo lavoro presenta UDVideoQA, un nuovo dataset e benchmark per il Question Answering su video del traffico urbano, progettato per valutare e migliorare la capacità dei modelli linguistici visivi di eseguire ragionamenti spaziotemporali complessi su dinamiche multi-agente in scenari reali, garantendo al contempo la privacy attraverso tecniche di offuscamento dinamico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Gli autori presentano SynthRender, un framework open-source per la generazione di immagini sintetiche con randomizzazione di dominio guidata, e IRIS, un nuovo dataset industriale, dimostrando come questa combinazione superi le tecniche esistenti per il trasferimento bidirezionale Sim-Real nella percezione di oggetti industriali, raggiungendo prestazioni superiori su diversi benchmark.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

Il paper presenta LUMEN, un nuovo framework di addestramento per modelli visione-linguaggio ottimizzato per l'interpretazione longitudinale di radiografie toraciche che, sfruttando il fine-tuning multi-immagine e multi-task su dataset come MIMIC-CXR, migliora significativamente le prestazioni diagnostiche e dimostra un potenziale promettente per la prognosi.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

Il paper presenta SPRITETOMESH, una pipeline automatica ibrida che combina segmentazione neurale e algoritmi geometrici per convertire istantaneamente gli sprite 2D in mesh per l'animazione scheletrica, superando i limiti della predizione diretta delle posizioni dei vertici e riducendo i tempi di creazione manuale da minuti a pochi secondi.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Il paper propone un nuovo paradigma di recupero visivo controllabile per qualità che utilizza un modello linguistico generativo per arricchire query brevi e ambigue con dettagli contestuali e livelli di qualità espliciti, migliorando significativamente i risultati di recupero senza modificare i modelli visione-linguaggio preaddestrati.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

Il paper presenta XMorph, un framework di intelligenza artificiale spiegabile ed efficiente che combina un meccanismo di normalizzazione dei bordi pesato per l'informazione con un modulo ibrido LLM-GradCAM++ per ottenere un'accurata classificazione dei tumori cerebrali (96,0%) fornendo al contempo insight clinici interpretabili.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

Il paper introduce Mask-HybridGNet, un framework innovativo che addestra modelli di segmentazione basati su grafi utilizzando esclusivamente maschere pixel-wise standard, permettendo l'acquisizione emergente di corrispondenze anatomiche consistenti tra pazienti senza la necessità di annotazioni manuali di punti di riferimento.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Il paper presenta Spa3R, un framework auto-supervisionato che apprende rappresentazioni spaziali unificate da immagini 2D non posizionate tramite la modellazione di campi spaziali predittivi, permettendo ai modelli visione-linguaggio di raggiungere uno stato dell'arte nel ragionamento 3D senza dipendere da dati espliciti tridimensionali.

Haoyi Jiang, Liu Liu, Xinjie Wang + 5 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

Il paper presenta HVG, un modello di diffusione video latente che genera video umani di alta qualità, coerenti nello spazio e nel tempo e multi-vista a partire da una singola immagine, consentendo il controllo della posa 3D e della vista attraverso l'uso di una mappa ossea duale, l'allineamento temporale e un campionamento spaziotemporale progressivo.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Gli autori presentano TomoROIS-SurfORA, un framework in due fasi che combina segmentazione diretta delle regioni di interesse tramite deep learning e analisi morfologica delle superfici per caratterizzare quantitativamente le membrane e le loro interazioni nei dati di tomografia crioelettronica.

Xingyi Cheng, Julien Maufront, Aurélie Di Cicco + 3 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Questo lavoro introduce il "Reflective Test-Time Planning", un approccio che potenzia gli LLM incarnati integrando la riflessione durante e dopo l'azione per correggere gli errori, migliorare l'assegnazione del credito a lungo termine e accumulare esperienza, ottenendo risultati significativi su benchmark di compiti domestici e di manipolazione.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

← Precedente Successivo →