Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

Il paper presenta DeepEarth, un modello mondiale multi-modale auto-supervisionato che utilizza il nuovo codificatore posizionale 4D Earth4D per raggiungere prestazioni all'avanguardia nella previsione ecologica con precisione sub-metrica e sub-secondaria su scala planetaria.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Il paper propone CAPL, un framework strutturato che combina un meccanismo di attenzione calibrato per le interazioni tra immagini e un'ottimizzazione basata sulle preferenze per mitigare le allucinazioni nei modelli visione-linguaggio su compiti multi-immagine, migliorando le prestazioni senza compromettere le capacità su singole immagini.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Questo articolo presenta un framework innovativo che, sfruttando un'interfaccia conversazionale basata su LLM e un sistema di rendering ottimizzato, consente agli scienziati di generare animazioni 3D di dati climatici petascale su workstation commerciali, riducendo drasticamente i tempi di elaborazione e rendendo accessibile la visualizzazione avanzata anche a utenti privi di competenze specialistiche.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Il paper introduce CoTJudger, un framework guidato da grafi che valuta l'efficienza dei Modelli di Ragionamento su larga scala convertendo le catene di pensiero in grafi di dipendenza per identificare il percorso più breve necessario, permettendo così di distinguere tra logica essenziale e ridondanza strutturale.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Questo studio indaga la capacità dei modelli linguistici di grandi dimensioni di sintetizzare codice Unity eseguibile a partire da pattern di gioco, dimostrando che l'uso di una rappresentazione intermedia specifica per il motore, pur migliorando la coerenza semantica, incontra ancora ostacoli critici legati al "grounding" strutturale e alla pulizia del progetto che limitano il successo della compilazione automatica.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

Il paper introduce ConservationBench, un benchmark che dimostra come i modelli visione-linguaggio attuali falliscano sistematicamente nel ragionare sulle trasformazioni fisiche, mostrando prestazioni vicine al caso e una dipendenza da priors testuali piuttosto che dalla comprensione visiva delle invarianti fisiche.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Questo studio presenta un agente AI per il gioco del Lupacchiotto sviluppato per la sfida AIWolfDial 2024, che migliora la coerenza delle risposte e la coerenza del personaggio integrando riassunti del dialogo e informazioni sulla personalità all'interno di un modello linguistico di grandi dimensioni.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Il paper presenta EyExIn, un framework efficiente che supera le lacune di conoscenza specifica nel dominio oftalmico dei modelli visione-linguaggio, integrando un meccanismo di iniezione profonda di esperti per ancorare il ragionamento a evidenze visive accurate e raggiungere prestazioni all'avanguardia nella diagnosi retinica.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Questo lavoro introduce un nuovo compito chiamato Trascrizione Emotiva nella Conversazione (ETC) e un corrispondente dataset giapponese per superare i limiti delle annotazioni emotive tradizionali, consentendo la generazione di descrizioni linguistiche naturali che catturano sfumature emotive complesse e sottili.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Learning to Rank the Initial Branching Order of SAT Solvers

Questo studio dimostra che l'uso di reti neurali grafiche per prevedere un ordine di ramificazione iniziale può accelerare significativamente i risolutori SAT su istanze casuali e pseudo-industriali, sebbene tale approccio perda efficacia su istanze industriali complesse a causa della rapida sovrascrittura delle euristiche dinamiche del solver.

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs