Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

O artigo apresenta o DeepEarth, um modelo de mundo auto-supervisionado multi-modal que utiliza o codificador posicional 4D Earth4D para escalar com precisão sub-métrica e sub-segundo em escala planetária, alcançando desempenho superior em previsões ecológicas.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

TacDexGrasp: Compliant and Robust Dexterous Grasping with Tactile Feedback

O artigo TacDexGrasp apresenta um controlador baseado em Programação Cônica de Segunda Ordem e feedback tátil que garante a estabilidade de preensões dexterosas em objetos desconhecidos, prevenindo tanto o deslizamento translacional quanto o rotacional ao restringir ativamente a razão entre as forças tangenciais e normais em cada contato, sem a necessidade de modelagem explícita de torque ou detecção de deslizamento.

Yubin Ke, Jiayi Chen, Hang Lv, Xiao Zhou, He Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

O artigo propõe o framework CAPL, que combina calibração de atenção inter-imagem e aprendizado por preferência para mitigar alucinações em modelos de linguagem e visão grandes, melhorando a modelagem de associações entre múltiplas imagens e a fundamentação em evidências visuais autênticas.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Communication Network-Aware Missing Data Recovery for Enhanced Distribution Grid Visibility

Este artigo propõe um quadro de recuperação de dados que integra restrições de roteamento de rede de comunicação com completamento de matriz de baixo posto para melhorar a precisão na recuperação de medições faltantes em redes de distribuição, superando os métodos tradicionais que ignoram a dependência espacial causada por falhas na comunicação.

Biswas Rudra Jyoti Arka, Md Zahidul Islam, Yuzhang Lin, Vinod M. Vokkarane, Junbo Zhao2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Este artigo apresenta um framework acessível que permite a cientistas sem especialização em visualização criar animações 3D de dados climáticos em escala petasséptica em estações de trabalho comuns, utilizando um sistema de descritores de animação, acesso eficiente a dados na nuvem e uma interface assistida por LLM para gerar resultados em tempo reduzido.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Este artigo propõe um protótipo de gêmeo digital bidirecional com ancoragem de protótipos e aprendizado de multi-periodicidade para realizar diagnóstico de falhas eficiente em cenários de poucos dados, superando as limitações dos métodos tradicionais que dependem de grandes volumes de dados rotulados.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

GuideTWSI: A Diverse Tactile Walking Surface Indicator Dataset from Synthetic and Real-World Images for Blind and Low-Vision Navigation

O artigo apresenta o GuideTWSI, um novo conjunto de dados diversificado de imagens sintéticas e reais que supera as limitações geográficas e de viewpoint dos datasets existentes ao incluir tanto barras direcionais quanto domos truncados, visando melhorar a detecção e navegação segura de pessoas cegas e com baixa visão.

Hochul Hwang, Soowan Yang, Anh N. H. Nguyen, Parth Goel, Krisha Adhikari, Sunghoon I. Lee, Joydeep Biswas, Nicholas A. Giudice, Donghyun Kim2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

O artigo apresenta o MedSteer, um framework de direção de ativação sem treinamento para síntese endoscópica que gera pares contrafactuais preservando a estrutura anatômica ao identificar e manipular vetores de patologia nas camadas de atenção cruzada de modelos de difusão, superando métodos existentes na geração de dados causais e melhorando o desempenho na detecção de pólipos.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

O artigo apresenta o PhyVLM-CR, uma abordagem inovadora que integra as capacidades semânticas de um Modelo Visão-Linguagem (VLM) a um modelo de restauração física para realizar a remoção unificada e de alta fidelidade de nuvens finas e espessas em imagens de sensoriamento remoto, eliminando a necessidade de decisões explícitas sobre o tipo de nuvem e garantindo resultados coerentes e livres de alucinações.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Este artigo apresenta o PSG-UIENet, uma rede de aprimoramento de imagens subaquáticas que integra correção de iluminação baseada em Retinex com orientações semânticas de linguagem, acompanhada pela criação do primeiro conjunto de dados multimodais (LUIQD-TD) e de uma função de perda específica para garantir consistência semântica entre texto e imagem.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs