cs.CV articoli | Gist.Science

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Il paper presenta EduVQA, un nuovo framework e dataset (EduAIGV-1k) con annotazioni granulari per valutare la qualità percettiva e l'allineamento ai prompt dei video generati dall'IA a scopo educativo, introducendo un modulo S2D-MoE che supera le prestazioni degli attuali metodi di valutazione.

Baoliang Chen, Xinlong Bu, Lingyu Zhu + 2 more2026-03-04💻 cs

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Il paper introduce TikZilla, una famiglia di modelli linguistici open-source addestrati su un nuovo dataset di alta qualità (DaTikZ-V4) e ottimizzati tramite un processo di apprendimento per rinforzo con segnali di ricompensa visiva, che supera le prestazioni dei modelli più grandi come GPT-4o nella generazione di figure scientifiche TikZ da testo.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

Il paper presenta TinyIceNet, una rete neurale compatta e ottimizzata per FPGA che esegue in orbita la segmentazione del ghiaccio marino da immagini SAR Sentinel-1, garantendo un'elaborazione quasi in tempo reale con un consumo energetico ridotto rispetto alle soluzioni tradizionali basate su GPU.

Mhd Rashed Al Koutayni, Mohamed Selim, Gerd Reis + 2 more2026-03-04🤖 cs.AI

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

Il paper presenta AWDiff, un modello di diffusione basato sulla trasformata wavelet a trous e condizionato semanticamente da BioMedCLIP, progettato per sintetizzare immagini ecografiche polmonari ad alta fedeltà strutturale preservando i dettagli diagnostici critici spesso persi dai metodi generativi esistenti.

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker + 2 more2026-03-04💻 cs

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Il paper propone RL3DEdit, un framework basato sul reinforcement learning che sfrutta i reward derivati dal modello fondazionale 3D VGGT per garantire coerenza multi-vista nell'editing di scene 3D, superando le limitazioni della scarsità di dati di addestramento supervisionato.

Jiyuan Wang, Chunyu Lin, Lei Sun + 8 more2026-03-04🤖 cs.AI

Kling-MotionControl Technical Report

Il documento presenta Kling-MotionControl, un framework unificato basato su DiT che garantisce un'animazione di personaggi olistica, robusta ed espressiva, combinando una strategia "divide-and-conquer" per la gestione differenziata di corpo, volto e mani, un'apprendimento adattivo per la generalizzazione cross-identità, una preservazione fedele dell'aspetto e un'accelerazione dell'inferenza superiore a 10 volte, superando le soluzioni commerciali e open-source esistenti in termini di qualità visiva e controllo preciso.

Kling Team, Jialu Chen, Yikang Ding + 21 more2026-03-04💻 cs

Conditioned Activation Transport for T2I Safety Steering

Il paper propone Conditioned Activation Transport (CAT), un nuovo framework che utilizza mappe di trasporto non lineari condizionate su un dataset contrastivo per ridurre la generazione di contenuti tossici nei modelli Text-to-Image senza compromettere la qualità delle immagini su prompt sicuri.

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński + 3 more2026-03-04🤖 cs.AI

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Questo lavoro propone MoD-DPO, un framework di ottimizzazione delle preferenze che mitiga le allucinazioni cross-modali nei modelli linguistici omni-modali introducendo regolarizzazioni specifiche per le modalità e penalità contro i pregiudizi testuali, migliorando così l'accuratezza percettiva e la robustezza del modello.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

Chain of World: World Model Thinking in Latent Motion

Il paper introduce CoWVLA, un nuovo paradigma per i modelli Vision-Language-Action che unisce il ragionamento temporale dei modelli del mondo con una rappresentazione latente del movimento disaccoppiata, superando i limiti delle approcci esistenti e migliorando l'efficienza dell'apprendimento visuomotorio.

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Il paper introduce ACE-Brain-0, un modello fondazionale generale che unifica ragionamento spaziale, guida autonoma e manipolazione robotica sfruttando l'intelligenza spaziale come scaffold universale e il paradigma SSR per superare le sfide dell'addestramento su embodiment eterogenei, ottenendo prestazioni all'avanguardia su 24 benchmark.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Il paper introduce COP-GEN, un modello di diffusione latente basato su transformer che genera dati di osservazione terrestre multimodali in modo stocastico per catturare l'incertezza intrinseca e abilitare traduzioni tra sensori e completamento dati senza addestramento specifico per ogni compito.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Il paper introduce UniG2U-Bench, un benchmark completo che dimostra come, sebbene i modelli multimodali unificati possano migliorare l'intelligenza spaziale e il ragionamento multi-step attraverso la generazione, essi tendano generalmente a sottoperformare rispetto ai modelli base e che l'approccio "genera poi rispondi" spesso degradi le prestazioni rispetto all'inferenza diretta.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

Il paper presenta DuoMo, un metodo generativo basato su due modelli di diffusione che ricostruisce il movimento umano nello spazio mondiale partendo da video non vincolati e rumorosi, ottenendo risultati all'avanguardia rispetto agli stati dell'arte.

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR è un'architettura innovativa che supera i limiti di scala dei modelli geometrici feedforward per la ricostruzione 3D su video di lunga durata, combinando un modulo di memoria ibrido con addestramento test-time e attenzione a finestra scorrevole per garantire coerenza globale e precisione senza post-ottimizzazione.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Questo studio esplora il preaddestramento multimodale nativo utilizzando il framework Transfusion, rivelando che la combinazione di rappresentazioni visive unificate, dati complementari e un'architettura Mixture-of-Experts risolve l'asimmetria di scalabilità tra linguaggio e visione, permettendo l'emergere di modelli fondazionali multimodali capaci di modellare il mondo.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

Il paper presenta Tether, un metodo che permette ai robot di eseguire autonomamente ore di gioco funzionale nel mondo reale partendo da poche dimostrazioni, utilizzando corrispondenze di punti chiave per adattare le azioni e modelli visione-linguaggio per guidare un ciclo continuo di selezione e miglioramento dei compiti, generando così un vasto dataset che porta a politiche di imitazione competitive con quelle apprese da umani.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Il paper presenta ULTRA, un framework unificato che combina un algoritmo di retargeting neurale guidato dalla fisica e un controller multimodale per abilitare i robot umanoidi a eseguire compiti complessi di locomozione e manipolazione in autonomia partendo da specifiche ad alto livello e percezione visiva, superando i limiti delle metodologie basate sul tracciamento di riferimenti predefiniti.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Il paper presenta un framework di apprendimento in due fasi per l'automazione di compiti di manipolazione complessi e soggettivi come la sbucciatura con un coltello, che combina l'imitazione guidata dalla forza con un affinamento basato sulle preferenze umane per ottenere tassi di successo superiori al 90% e una forte generalizzazione zero-shot su diverse varietà di frutta e verdura.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

Il paper presenta MIBURI, un framework causale online pionieristico che genera in tempo reale gesti corporei ed espressioni facciali espressivi e sincronizzati con il discorso, superando i limiti di rigidità e latenza delle soluzioni esistenti per gli agenti conversazionali incarnati.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

Il paper presenta Utonia, un encoder transformer auto-supervisionato unificato che apprende rappresentazioni coerenti da punti cloud eterogenei provenienti da diversi domini, migliorando le capacità percettive e abilitando applicazioni avanzate nella robotica e nel ragionamento multimodale.

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

← Precedente Successivo →