Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Il paper propone un sistema di rilevamento delle allucinazioni visive strutturali in immagini di personaggi cartonesi generati da modelli Text-to-Image, che utilizza un modello Vision-Language potenziato dall'apprendimento in contesto con informazioni sulla posa (PA-ICVL) per ottenere miglioramenti significativi rispetto ai metodi basati solo su immagini RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Il paper presenta Fuse4Seg, un innovativo framework di fusione di immagini mediche multi-modale basato su ottimizzazione bi-livello che, allineando direttamente la fusione alla segmentazione tramite gradienti semantici e vincoli di frequenza, supera le prestazioni degli stati dell'arte mantenendo al contempo la fedeltà fisica e l'interpretabilità clinica.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Il paper introduce FALCON, un approccio di preaddestramento auto-supervisionato unificato per il riconoscimento delle azioni dei droni che, integrando la mascheratura orientata agli oggetti e la ricostruzione futura a doppio orizzonte, risolve lo squilibrio spaziale tipico dei video aerei migliorando significativamente l'accuratezza e riducendo i tempi di inferenza rispetto ai metodi supervisionati.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

Il paper presenta AuthFace, un nuovo framework che migliora il ripristino autentico dei volti ciechi (BFR) sfruttando un prior generativo orientato al volto, ottenuto tramite il fine-tuning di un modello di diffusione testo-immagine su un dataset di 1,5K immagini ad alta risoluzione curato da fotografi professionisti e integrato con una perdita di caratteristiche facciali latenti sensibile al tempo per ridurre gli artefatti.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Il paper presenta LEO, un'architettura semplice ed efficace che ottimizza la fusione di diversi encoder visivi tramite un approccio leggero basato su proiezioni indipendenti e intercalamento di sequenze, ottenendo prestazioni superiori su numerosi benchmark e una forte capacità di generalizzazione nel dominio della guida autonoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS è un metodo che migliora la ricostruzione 3D tramite Gaussian Splatting introducendo una funzione di perdita geometrica basata su caratteristiche eigenvalue, ottenendo una maggiore accuratezza geometrica, una drastica riduzione degli artefatti e un'efficienza di memoria superiore rispetto alle tecniche esistenti.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Il paper introduce PoI, un framework che migliora la regressione delle coordinate della scena combinando la sintesi di nuove viste con 3DGS e un modello di diffusione, filtrando poi progressivamente i pixel inaffidabili tramite l'errore di reproiezione per garantire supervisione 3D accurata e raggiungere prestazioni all'avanguardia nel localizzazione visiva.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Questo sondaggio offre una panoramica strutturata delle tecniche, dei dataset e delle sfide etiche legate all'uso dei modelli linguistici su larga scala per assistere i ricercatori in tutte le fasi del ciclo di vita scientifico, dalla scoperta alla valutazione.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Il paper introduce SCOTT, un'architettura di tokenizzazione convoluzionale combinata con un framework MIM-JEPA, che dimostra come sia possibile apprendere rappresentazioni visive robuste in contesti a dati limitati, superando la dipendenza dal paradigma dei "big data" e ottenendo prestazioni competitive rispetto ai metodi supervisionati e a quelli basati su pre-addestramento su larga scala.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Il paper presenta ECLARE, un metodo di super-risoluzione efficiente e auto-apprendente che migliora la risoluzione anisotropa dei volumi MR clinici stimando il profilo della slice e apprendendo direttamente dai dati acquisiti, superando così le limitazioni delle tecniche esistenti senza subire problemi di spostamento di dominio.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Il paper introduce EarthScape, un dataset multimodale pronto per l'IA che integra modelli digitali del terreno, immagini aeree e dati vettoriali per automatizzare la mappatura geologica superficiale, dimostrando che le caratteristiche del terreno offrono il segnale predittivo più affidabile rispetto agli input spettrali o altimetrici grezzi.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Il paper presenta FindAnything, un framework di mappatura open-vocabulary che integra informazioni visive e linguistiche in sottomappe volumetriche centrate sugli oggetti, consentendo una comprensione semantica efficiente e scalabile in tempo reale anche su dispositivi con risorse limitate come i MAV.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI