Kling-MotionControl Technical Report

Il documento presenta Kling-MotionControl, un framework unificato basato su DiT che garantisce un'animazione di personaggi olistica, robusta ed espressiva, combinando una strategia "divide-and-conquer" per la gestione differenziata di corpo, volto e mani, un'apprendimento adattivo per la generalizzazione cross-identità, una preservazione fedele dell'aspetto e un'accelerazione dell'inferenza superiore a 10 volte, superando le soluzioni commerciali e open-source esistenti in termini di qualità visiva e controllo preciso.

Kling Team, Jialu Chen, Yikang Ding + 21 more2026-03-04💻 cs

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Questo lavoro propone MoD-DPO, un framework di ottimizzazione delle preferenze che mitiga le allucinazioni cross-modali nei modelli linguistici omni-modali introducendo regolarizzazioni specifiche per le modalità e penalità contro i pregiudizi testuali, migliorando così l'accuratezza percettiva e la robustezza del modello.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Il paper introduce UniG2U-Bench, un benchmark completo che dimostra come, sebbene i modelli multimodali unificati possano migliorare l'intelligenza spaziale e il ragionamento multi-step attraverso la generazione, essi tendano generalmente a sottoperformare rispetto ai modelli base e che l'approccio "genera poi rispondi" spesso degradi le prestazioni rispetto all'inferenza diretta.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Questo studio esplora il preaddestramento multimodale nativo utilizzando il framework Transfusion, rivelando che la combinazione di rappresentazioni visive unificate, dati complementari e un'architettura Mixture-of-Experts risolve l'asimmetria di scalabilità tra linguaggio e visione, permettendo l'emergere di modelli fondazionali multimodali capaci di modellare il mondo.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

Il paper presenta Tether, un metodo che permette ai robot di eseguire autonomamente ore di gioco funzionale nel mondo reale partendo da poche dimostrazioni, utilizzando corrispondenze di punti chiave per adattare le azioni e modelli visione-linguaggio per guidare un ciclo continuo di selezione e miglioramento dei compiti, generando così un vasto dataset che porta a politiche di imitazione competitive con quelle apprese da umani.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Il paper presenta ULTRA, un framework unificato che combina un algoritmo di retargeting neurale guidato dalla fisica e un controller multimodale per abilitare i robot umanoidi a eseguire compiti complessi di locomozione e manipolazione in autonomia partendo da specifiche ad alto livello e percezione visiva, superando i limiti delle metodologie basate sul tracciamento di riferimenti predefiniti.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Il paper presenta un framework di apprendimento in due fasi per l'automazione di compiti di manipolazione complessi e soggettivi come la sbucciatura con un coltello, che combina l'imitazione guidata dalla forza con un affinamento basato sulle preferenze umane per ottenere tassi di successo superiori al 90% e una forte generalizzazione zero-shot su diverse varietà di frutta e verdura.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess