ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Questo lavoro presenta ViCLIP-OT, il primo modello fondazionale visione-linguaggio ottimizzato per il recupero immagine-testo in vietnamita, che integra l'apprendimento contrastivo CLIP con una perdita di trasporto ottimale regolarizzata da grafi di similarità (SIGROT) per superare le limitazioni dei modelli esistenti e ottenere risultati superiori su benchmark locali e in setting zero-shot.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

HulluEdit è un nuovo framework di intervento in un singolo passaggio che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala modificando selettivamente i sottospazi ortogonali delle conoscenze pregresse senza alterare le evidenze visive, ottenendo così risultati all'avanguardia nel mantenimento dell'accuratezza e dell'efficienza.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

Il paper introduce SceneTransporter, un framework end-to-end che utilizza l'ottimale trasporto entropico all'interno di un modello di diffusione latente compositivo per generare scene 3D strutturate e coerenti a partire da una singola immagine, risolvendo il problema dell'entanglement tra le istanze attraverso vincoli strutturali globali.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

Face Time Traveller : Travel Through Ages Without Losing Identity

Il paper presenta Face Time Traveller (FaceTT), un framework basato sulla diffusione che supera i limiti degli approcci esistenti per l'invecchiamento facciale, garantendo trasformazioni realistiche e controllabili che preservano fedelmente l'identità e lo sfondo attraverso strategie di prompt refinement, inversione senza tuning e controllo adattivo dell'attenzione.

Purbayan Kar, Ayush Ghadiya, Vishal Chudasama + 2 more2026-02-27💻 cs

Reflectance Multispectral Imaging for Soil Composition Estimation and USDA Texture Classification

Questo articolo presenta un sistema multispettrale a basso costo combinato con modelli di machine learning per la stima non distruttiva della composizione del suolo e la classificazione della tessitura USDA, ottenendo un'accuratezza superiore al 99% e un R² fino a 0,99, rendendolo adatto per applicazioni in agricoltura di precisione e ingegneria geotecnica.

G. A. S. L Ranasinghe, J. A. S. T. Jayakody, M. C. L. De Silva + 5 more2026-02-27⚡ eess