cs.CV articoli | Gist.Science

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Il paper presenta JAEGER, un framework che estende i modelli linguistici audio-visivi alla percezione 3D integrando osservazioni RGB-D e ambisonics multicanale con una nuova rappresentazione audio vettoriale neurale, validato sul benchmark SpatialSceneQA per migliorare il grounding spaziale e il ragionamento in ambienti fisici complessi.

Zhan Liu, Changli Tang, Yuxin Wang + 7 more2026-02-24🤖 cs.AI

Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Questo studio confronta dieci architetture di deep learning per la classificazione di cinque varietà di olive nere turche, dimostrando che EfficientNetV2-S raggiunge la massima accuratezza (95,8%) mentre EfficientNetB0 offre il miglior compromesso tra prestazioni e complessità computazionale, evidenziando come l'efficienza parametrica sia cruciale in contesti con dati limitati.

Hatice Karatas, Irfan Atabas2026-02-24💻 cs

VLANeXt: Recipes for Building Strong VLA Models

Il paper presenta VLANeXt, un modello VLA ottimizzato attraverso un'analisi sistematica delle scelte progettuali che ne dimostra le prestazioni superiori rispetto agli stati dell'arte su benchmark simulati e in esperimenti reali, accompagnato dal rilascio di un codice unificato per la comunità.

Xiao-Ming Wu, Bin Fan, Kang Liao + 6 more2026-02-24🤖 cs.AI

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Questo studio dimostra che la pressione morfologica, sia attraverso descrittori di caratteristiche che attraverso strutture fonologiche di parole inventate, crea gradienti navigabili negli spazi latenti dei modelli di diffusione testo-immagine, permettendo di raggiungere identità visive coerenti e di generare nuovi concetti senza l'uso di dati di addestramento specifici.

Andrew Fraser2026-02-24💻 cs

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Questo studio dimostra che i modelli generativi all'avanguardia per la ricostruzione delle immagini MRI sono altamente vulnerabili a piccole perturbazioni avversarie che inducono allucinazioni, evidenziando la necessità di sviluppare nuove tecniche di rilevamento e addestramento per garantire la sicurezza diagnostica.

Suna Buğday, Yvan Saeys, Jonathan Peck2026-02-24⚡ eess

Rodent-Bench

Il paper presenta Rodent-Bench, un nuovo benchmark progettato per valutare le capacità dei modelli linguistici multimodali nell'annotare video di comportamenti dei roditori, rivelando che gli attuali modelli all'avanguardia non sono ancora sufficientemente affidabili per questo compito a causa di significative difficoltà nella segmentazione temporale e nel riconoscimento di stati comportamentali sottili.

Thomas Heap, Laurence Aitchison, Emma Cahill + 1 more2026-02-24🤖 cs.AI

4D-UNet improves clutter rejection in human transcranial contrast enhanced ultrasound

Questo studio presenta un approccio innovativo basato su una rete 4D-UNet che, sfruttando le informazioni spaziali e temporali, migliora il filtraggio del clutter e la rilevazione delle microbolle nell'ecografia transcranica con mezzo di contrasto negli adulti, superando i limiti dei filtri tradizionali.

Tristan Beruard, Armand Delbos, Arthur Chavignon + 2 more2026-02-24⚡ eess

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

Il paper propone GIST, un metodo innovativo per la selezione mirata dei dati nell'addestramento con istruzioni che, superando le limitazioni degli approcci basati su statistiche dell'ottimizzatore, utilizza un allineamento di sottospazi tramite SVD per gestire le complesse interazioni tra parametri nei metodi di fine-tuning efficiente (PEFT), ottenendo prestazioni superiori con costi computazionali e di storage drasticamente ridotti.

Guanghui Min, Tianhao Huang, Ke Wan + 1 more2026-02-24🤖 cs.LG

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Questo articolo presenta il dataset FloralSix e un benchmark di varianti YOLO per il riconoscimento dei fiori, dimostrando come l'ottimizzazione dell'annotazione (singola o multipla) e l'uso dell'ottimizzatore SGD influenzino le prestazioni nei diversi scenari di densità vegetale per applicazioni agricole.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Il paper introduce DM4CT, un benchmark completo che valuta le prestazioni e le limitazioni dei modelli di diffusione per la ricostruzione tomografica computerizzata (CT) in scenari reali e simulati, confrontandoli con metodi consolidati e rendendo disponibili dataset e codice.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Lo studio dimostra che l'uso di patch di dimensioni ridotte (1, 2 e 4) durante il fine-tuning dei Vision Transformers migliora significativamente le prestazioni nella classificazione di immagini mediche 2D e 3D rispetto alle patch più grandi, con un ulteriore guadagno ottenuto tramite una strategia di ensemble.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Il paper presenta un approccio innovativo per generare volti parlanti realistici partendo da un'immagine statica, un profilo vocale e un testo target, sfruttando uno spazio latente multi-impigliato per sincronizzare le caratteristiche spaziotemporali specifiche della persona tra le modalità audio e video.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

Auto Quantum Machine Learning for Multisource Classification

Questo lavoro introduce un approccio di apprendimento automatico quantistico automatizzato (AQML) per la fusione di dati multisorgente, dimostrando che i circuiti quantistici generati automaticamente superano sia i modelli classici che quelli progettati manualmente, ottenendo risultati migliorati nella rilevazione dei cambiamenti sul dataset ONERA.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

Il paper presenta InfoNoise, un metodo di scheduling del rumore adattivo basato sull'entropia condizionale che ottimizza l'allocazione delle risorse computazionali durante l'addestramento dei modelli di diffusione, superando le prestazioni delle schedule manuali su diversi dataset e riducendo significativamente i tempi di training.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Questo studio analizza sistematicamente gli effetti dell'accoppiamento nella modellazione dinamica dei manipolatori continui aerei, dimostrando che, sebbene il modello disaccoppiato presenti significative discrepanze in regime aperto, garantisce in regime chiuso una precisione di tracciamento paragonabile a quella del modello accoppiato con un ridotto costo computazionale.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

Il paper propone "modelli del mondo isomorfi" basati su campi neurali che preservano la topologia sensoriale, dimostrando che tale approccio permette di apprendere la fisica intuitiva e trasferire le politiche di controllo più efficacemente rispetto ai modelli latenti tradizionali, suggerendo che la fisica intuitiva e lo schema corporeo condividono un'origine comune nella dinamica neurale spazialmente strutturata.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

Il paper presenta LoRun, una rete di unfolding profonda che utilizza adattatori LoRA leggeri su un singolo denoiser preaddestrato per superare le limitazioni di ridondanza e adattamento delle reti esistenti, ottenendo una significativa riduzione dei parametri mantenendo prestazioni elevate in compiti di ripristino delle immagini.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Il paper presenta Video-TwG, un framework di apprendimento curricolare rinforzato che introduce un paradigma "pensare con l'ancoraggio" per migliorare la comprensione dei video lunghi, permettendo ai modelli di decidere attivamente quando focalizzarsi su clip specifiche per ridurre le allucinazioni e ottimizzare le prestazioni.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Il paper presenta HIME, un metodo di editing del modello che utilizza un punteggio di insensibilità all'allucinazione (HIS) per identificare e modificare selettivamente i livelli delle LVLM, riducendo significativamente le allucinazioni di oggetti senza costi computazionali aggiuntivi o parametri extra.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Il paper propone NeXt2Former-CD, un framework end-to-end che integra encoder ConvNeXt, fusione temporale basata su attenzione deformabile e decoder Mask2Former per ottenere prestazioni di rilevamento dei cambiamenti nel telerilevamento superiori rispetto ai modelli basati su State Space Models, pur mantenendo una latenza di inferenza comparabile.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

← Precedente Successivo →