Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Il paper presenta Nano-EmoX, un modello linguistico multimodale compatto da 2,2 miliardi di parametri che, grazie a una gerarchia cognitiva ispirata e a un framework di addestramento curriculare chiamato P2E, unifica sei compiti affettivi fondamentali per colmare il divario tra percezione ed empatia, ottenendo prestazioni all'avanguardia con elevata efficienza.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Il paper presenta SimRecon, un framework che realizza la ricostruzione composizionale di scene complesse da video reali attraverso una pipeline "Percezione-Generazione-Simulazione" potenziata da due moduli ponte, l'Ottimizzazione Attiva del Punto di Vista e il Sintetizzatore di Grafi di Scena, per garantire sia la fedeltà visiva che la plausibilità fisica degli asset generati.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Il paper presenta HiFi-Inpaint, un nuovo framework di inpainting basato su riferimento ad alta fedeltà che, grazie all'attenzione di potenziamento condiviso e a una perdita consapevole dei dettagli, risolve le limitazioni attuali nella generazione di immagini uomo-prodotto preservando con precisione i dettagli del prodotto.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Il paper introduce TimeGS, un nuovo framework per la previsione delle serie temporali che supera i limiti delle rappresentazioni 2D statiche trasformando il problema in un rendering generativo basato su 2D Gaussian Splatting, il quale utilizza kernel gaussiani anisotropi e blocchi di rasterizzazione cronologicamente continui per modellare adattivamente le fluttuazioni e le tendenze temporali ottenendo prestazioni allo stato dell'arte.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

Il paper presenta CamDirector, un nuovo framework per l'editing di traiettorie video che garantisce coerenza a lungo termine e un controllo preciso della camera attraverso un sistema ibrido di warping con cache mondiale e un modello di diffusione autoregressivo guidato dalla storia, superando i limiti delle metodologie esistenti e ottenendo risultati all'avanguardia su un nuovo benchmark denominato iPhone-PTZ.

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Il paper presenta HAMMER, un nuovo framework che sfrutta i modelli linguistici multimodali (MLLM) per l'ancoraggio delle affordanze 3D guidato dall'intenzione di interazione, integrando in modo gerarchico informazioni contestuali e caratteristiche spaziali per ottenere una localizzazione precisa e robusta senza dipendere da descrizioni attributive esplicite o segmentatori 2D preesistenti.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Questo lavoro analizza il degrado delle prestazioni dei metodi di recupero di momenti video (VMR) basati su query descrittive quando applicati a query di ricerca, identificando il collasso delle query del decoder come causa principale e proponendo modifiche architetturali che migliorano significativamente l'accuratezza su query di ricerca, specialmente quelle multi-momento.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Questo studio propone un framework di selezione di set di caratteristiche radiomiche specifico per il paziente che, attraverso una strategia di recupero a due stadi, supera i limiti degli approcci tradizionali basati sul ranking marginale, ottenendo prestazioni diagnostiche competitive con i modelli deep learning mantenendo al contempo un'elevata trasparenza e interpretabilità clinica.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Questo lavoro introduce "Cultural Counterfactuals", un dataset sintetico di 60.000 immagini modificate che colloca persone diverse in contesti culturali reali per valutare e quantificare i pregiudizi culturali (religione, nazionalità, status socioeconomico) nei Modelli Visivo-Linguistici su larga scala, colmando il vuoto esistente negli studi sui bias non legati alle caratteristiche fisiche.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs