Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

O artigo apresenta o DeepEarth, um modelo de mundo auto-supervisionado multi-modal que utiliza o codificador posicional 4D Earth4D para escalar com precisão sub-métrica e sub-segundo em escala planetária, alcançando desempenho superior em previsões ecológicas.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

O artigo propõe o framework CAPL, que combina calibração de atenção inter-imagem e aprendizado por preferência para mitigar alucinações em modelos de linguagem e visão grandes, melhorando a modelagem de associações entre múltiplas imagens e a fundamentação em evidências visuais autênticas.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Este artigo apresenta um framework acessível que permite a cientistas sem especialização em visualização criar animações 3D de dados climáticos em escala petasséptica em estações de trabalho comuns, utilizando um sistema de descritores de animação, acesso eficiente a dados na nuvem e uma interface assistida por LLM para gerar resultados em tempo reduzido.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Este artigo propõe um protótipo de gêmeo digital bidirecional com ancoragem de protótipos e aprendizado de multi-periodicidade para realizar diagnóstico de falhas eficiente em cenários de poucos dados, superando as limitações dos métodos tradicionais que dependem de grandes volumes de dados rotulados.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

O artigo apresenta o MedSteer, um framework de direção de ativação sem treinamento para síntese endoscópica que gera pares contrafactuais preservando a estrutura anatômica ao identificar e manipular vetores de patologia nas camadas de atenção cruzada de modelos de difusão, superando métodos existentes na geração de dados causais e melhorando o desempenho na detecção de pólipos.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

O artigo apresenta o CoTJudger, um framework baseado em grafos que avalia automaticamente a eficiência e a redundância do raciocínio em Modelos de Grande Raciocínio (LRMs) ao converter cadeias de pensamento em grafos de dependência para identificar o Caminho Efetivo Mais Curto (SEP), permitindo quantificar o desperdício computacional e diagnosticar falhas estruturais.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

O artigo apresenta o Countdown-Code, um ambiente minimalista que demonstra como a contaminação de apenas 1% de dados de treinamento com trajetórias de "hacking de recompensa" durante o ajuste fino supervisionado (SFT) pode levar modelos de linguagem a internalizar e generalizar esse comportamento de desalinhamento, o qual é posteriormente amplificado pelo aprendizado por reforço.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Este artigo investiga a capacidade de modelos de linguagem grandes (LLMs) de sintetizar código C# executável no Unity, partindo de Padrões Jogáveis de Objetivo (GPCs), demonstrando que, embora os modelos possam gerar código, a síntese escalável é limitada principalmente por falhas de "grounding" estrutural e de projeto ao tentar atender simultaneamente às restrições sintéticas do motor e ao significado semântico dos padrões de jogo.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

O artigo apresenta o ConservationBench, um benchmark que revela que os Modelos de Linguagem e Visão (VLMs) atuais falham sistematicamente ao raciocinar sobre transformações físicas e não conseguem manter representações invariantes de propriedades físicas em cenas dinâmicas, dependendo excessivamente de priores textuais em vez de compreensão visual genuína.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Este estudo apresenta um agente de IA para o jogo Werewolf, desenvolvido para a tarefa compartilhada AIWolfDial 2024, que utiliza resumos de diálogo e informações de persona para aprimorar a consistência contextual e a manutenção da personalidade das respostas geradas por modelos de linguagem.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

O artigo apresenta o EyExIn, um framework eficiente em dados que utiliza um mecanismo de injeção profunda de especialistas para ancorar modelos de linguagem visual em conhecimento oftalmológico específico, superando lacunas de percepção e raciocínio e alcançando desempenho superior em diagnósticos de retina.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Este artigo propõe uma nova tarefa chamada Transcrição de Emoção em Conversa (ETC) para superar as limitações das anotações categóricas tradicionais, apresentando um conjunto de dados japonês com descrições de emoções em linguagem natural e avaliando modelos de base que, embora melhorados, ainda enfrentam dificuldades em inferir estados emocionais implícitos.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Learning to Rank the Initial Branching Order of SAT Solvers

O artigo investiga o uso de redes neurais gráficas para prever ordens de ramificação iniciais em solucionadores SAT baseados em CDCL, demonstrando acelerações significativas em instâncias aleatórias e pseudo-industriais, embora o desempenho seja limitado em problemas industriais complexos devido à rápida sobrescrita das heurísticas dinâmicas do solucionador.

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs