VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Il paper presenta VisionPangu, un assistente multimodale compatto da 1,7 miliardi di parametri che, combinando un encoder visivo InternVL, un backbone linguistico OpenPangu e un addestramento supervisionato con descrizioni dense del dataset DOCCI, migliora significativamente la generazione di didascalie dettagliate e semanticamente coerenti senza richiedere architetture su larga scala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

Il paper presenta MultiGO++, un nuovo framework per la ricostruzione 3D di umani vestiti da una singola immagine che supera i limiti delle metodologie esistenti attraverso una collaborazione sistematica tra geometria e texture, realizzata tramite sintesi multi-sorgente, estrazione di forma consapevole delle regioni e una rete di ricostruzione duale.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Questo studio presenta un'analisi su larga scala delle capacità e dei limiti della Restaurazione Immagini Generativa, rivelando un cambiamento di paradigma dalla scarsità di dettagli verso la necessità di controllarne la qualità e il significato semantico, e proponendo un nuovo modello di valutazione della qualità dell'immagine allineato al giudizio umano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Il paper presenta Tell2Adapt, un innovativo framework unificato per l'adattamento di dominio non supervisionato senza sorgente in ambito medico che sfrutta un Modello Fondamentale Visivo per generare pseudo-etichette di alta qualità e garantire affidabilità clinica attraverso la regolarizzazione dei prompt e la raffinazione della plausibilità visiva, superando gli approcci esistenti su un vasto set di target anatomici.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Questo studio presenta un sistema avanzato di rilevamento delle luci blu di emergenza basato su quattro telecamere fisheye e un modello RT-DETR potenziato da un blocco di attenzione al colore, che utilizza il dataset ABLDataset per ottenere un'accuratezza del 94,7% e supportare la sicurezza stradale attraverso l'integrazione in sistemi ADAS multimodali.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI