cs.CV articoli | Gist.Science

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Il paper introduce DM4CT, un benchmark completo che valuta le prestazioni e le limitazioni dei modelli di diffusione per la ricostruzione tomografica computerizzata (CT) in scenari reali e simulati, confrontandoli con metodi consolidati e rendendo disponibili dataset e codice.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Lo studio dimostra che l'uso di patch di dimensioni ridotte (1, 2 e 4) durante il fine-tuning dei Vision Transformers migliora significativamente le prestazioni nella classificazione di immagini mediche 2D e 3D rispetto alle patch più grandi, con un ulteriore guadagno ottenuto tramite una strategia di ensemble.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Il paper presenta un approccio innovativo per generare volti parlanti realistici partendo da un'immagine statica, un profilo vocale e un testo target, sfruttando uno spazio latente multi-impigliato per sincronizzare le caratteristiche spaziotemporali specifiche della persona tra le modalità audio e video.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

Auto Quantum Machine Learning for Multisource Classification

Questo lavoro introduce un approccio di apprendimento automatico quantistico automatizzato (AQML) per la fusione di dati multisorgente, dimostrando che i circuiti quantistici generati automaticamente superano sia i modelli classici che quelli progettati manualmente, ottenendo risultati migliorati nella rilevazione dei cambiamenti sul dataset ONERA.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

Il paper presenta InfoNoise, un metodo di scheduling del rumore adattivo basato sull'entropia condizionale che ottimizza l'allocazione delle risorse computazionali durante l'addestramento dei modelli di diffusione, superando le prestazioni delle schedule manuali su diversi dataset e riducendo significativamente i tempi di training.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Questo studio analizza sistematicamente gli effetti dell'accoppiamento nella modellazione dinamica dei manipolatori continui aerei, dimostrando che, sebbene il modello disaccoppiato presenti significative discrepanze in regime aperto, garantisce in regime chiuso una precisione di tracciamento paragonabile a quella del modello accoppiato con un ridotto costo computazionale.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

Il paper propone "modelli del mondo isomorfi" basati su campi neurali che preservano la topologia sensoriale, dimostrando che tale approccio permette di apprendere la fisica intuitiva e trasferire le politiche di controllo più efficacemente rispetto ai modelli latenti tradizionali, suggerendo che la fisica intuitiva e lo schema corporeo condividono un'origine comune nella dinamica neurale spazialmente strutturata.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

Il paper presenta LoRun, una rete di unfolding profonda che utilizza adattatori LoRA leggeri su un singolo denoiser preaddestrato per superare le limitazioni di ridondanza e adattamento delle reti esistenti, ottenendo una significativa riduzione dei parametri mantenendo prestazioni elevate in compiti di ripristino delle immagini.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Il paper presenta Video-TwG, un framework di apprendimento curricolare rinforzato che introduce un paradigma "pensare con l'ancoraggio" per migliorare la comprensione dei video lunghi, permettendo ai modelli di decidere attivamente quando focalizzarsi su clip specifiche per ridurre le allucinazioni e ottimizzare le prestazioni.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Il paper presenta HIME, un metodo di editing del modello che utilizza un punteggio di insensibilità all'allucinazione (HIS) per identificare e modificare selettivamente i livelli delle LVLM, riducendo significativamente le allucinazioni di oggetti senza costi computazionali aggiuntivi o parametri extra.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Il paper propone NeXt2Former-CD, un framework end-to-end che integra encoder ConvNeXt, fusione temporale basata su attenzione deformabile e decoder Mask2Former per ottenere prestazioni di rilevamento dei cambiamenti nel telerilevamento superiori rispetto ai modelli basati su State Space Models, pur mantenendo una latenza di inferenza comparabile.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Subtle Motion Blur Detection and Segmentation from Static Image Artworks

Il paper propone SMBlurDetect, un framework unificato che combina la generazione di un dataset specifico ad alta qualità con un rilevatore end-to-end per identificare e segmentare con precisione il motion blur sottile in immagini statiche, superando significativamente le prestazioni dei metodi esistenti su benchmark standard.

Ganesh Samarth, Sibendu Paul, Solale Tabarestani + 1 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Questo articolo propone l'Apprendimento Spettrale Magnetico Coerente in Fase, un metodo per il clustering multi-vista che supera le limitazioni delle affinità basate solo sulla magnitudine modellando esplicitamente l'accordo direzionale tra le viste tramite termini di fase complessi per estrarre un segnale spettrale condiviso stabile e guidare l'apprendimento delle rappresentazioni.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

Il paper presenta MiSCHiEF, un benchmark basato su coppie contrastive di immagini e didascalie per valutare la capacità dei modelli visione-linguaggio di distinguere sottili differenze in contesti di sicurezza e cultura, evidenziando le attuali sfide nell'allineamento modale fine.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Il paper presenta RoboCurate, un nuovo framework per la generazione di dati sintetici robotici che migliora significativamente le prestazioni di apprendimento filtrando le azioni annotate tramite verifica in simulazione e aumentando la diversità visiva attraverso tecniche di editing e trasferimento video.

Seungku Kim, Suhyeok Jang, Byungjun Yoon + 3 more2026-02-24🤖 cs.AI

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Il paper presenta GeoCode, un nuovo dataset sintetico per il ragionamento geometrico multimodale che genera problemi complessi con codice di rendering verificato e introduce la previsione del codice come obiettivo di allineamento visivo-simbolico, migliorando significativamente le prestazioni dei modelli su diversi benchmark.

Haobo Lin, Tianyi Bai, Chen Chen + 4 more2026-02-24🤖 cs.AI

Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Questo studio presenta un benchmark che valuta dieci modelli fondazionali per la segmentazione semantica in patologia computazionale, dimostrando che l'uso di mappe di attenzione combinate con XGBoost senza fine-tuning permette di ottenere prestazioni superiori, in particolare con il modello vision-language CONCH e attraverso l'ensemble di modelli complementari.

Lavish Ramchandani, Aashay Tinaikar, Dev Kumar Das + 2 more2026-02-24💻 cs

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

Il paper presenta EditedID, un framework di ripristino facciale senza addestramento che risolve il problema dell'inconsistenza dell'identità nei modelli di editing multimodali attraverso una strategia di allineamento, disaccoppiamento e accoppiamento attentivo, garantendo così la conservazione sia dell'identità originale che degli elementi modificati.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs

Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

Il paper presenta Person2Drive, una piattaforma e benchmark open-source che affronta le sfide dell'addestramento di sistemi di guida autonoma end-to-end personalizzati fornendo un sistema di raccolta dati scalabile, metriche quantitative per lo stile di guida e un framework algoritmico per l'adattamento sicuro ai comportamenti individuali.

Xiaoru Dong, Ruiqin Li, Xiao Han + 7 more2026-02-24💻 cs

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Il paper propone TAG, un framework di visione-linguaggio che migliora il riconoscimento delle espressioni facciali vincolando il ragionamento multimodale alle Unità d'Azione (AU) per generare spiegazioni verificabili e ridurre le allucinazioni, ottenendo prestazioni superiori rispetto ai modelli esistenti su diversi dataset.

Haobo Lin, Tianyi Bai, Jiajun Zhang + 5 more2026-02-24🤖 cs.AI

← Precedente Successivo →