Physics-Guided VLM Priors for All-Cloud Removal

O artigo apresenta o PhyVLM-CR, uma abordagem inovadora que integra as capacidades semânticas de um Modelo Visão-Linguagem (VLM) a um modelo de restauração física para realizar a remoção unificada e de alta fidelidade de nuvens finas e espessas em imagens de sensoriamento remoto, eliminando a necessidade de decisões explícitas sobre o tipo de nuvem e garantindo resultados coerentes e livres de alucinações.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Este artigo apresenta o PSG-UIENet, uma rede de aprimoramento de imagens subaquáticas que integra correção de iluminação baseada em Retinex com orientações semânticas de linguagem, acompanhada pela criação do primeiro conjunto de dados multimodais (LUIQD-TD) e de uma função de perda específica para garantir consistência semântica entre texto e imagem.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Este estudo estabelece um quadro de avaliação multidimensional para modelos de linguagem pequenos (SLMs) na arquitetura de software, revelando que modelos acima de 3B parâmetros possuem capacidades robustas em zero-shot, enquanto os menores beneficiam-se mais do ajuste fino, e que a alta diversidade semântica em modelos prontos muitas vezes indica alucinação em vez de exploração produtiva.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son Ha2026-03-10💻 cs

Randomise Alone, Reach as a Team

Este artigo investiga jogos em grafos concorrentes com n jogadores cooperativos que utilizam randomização distribuída (sem fonte de aleatoriedade compartilhada), demonstrando que estratégias sem memória são suficientes para o problema de limiar (NP-difícil e em R\exists\mathbb{R}) e que o problema de quase-certeza é NP-completo, além de propor a lógica IRATL e um solver prático para essas questões.

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. Thejaswini2026-03-10💻 cs

ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation

Este artigo propõe um framework de controle preditivo baseado em modelo distribuído (DMPC) utilizando o método ADMM para permitir o transporte colaborativo de cargas pesadas por equipes de robôs quadrúpedes com manipuladores, decompondo o problema global em subproblemas paralelos que garantem escalabilidade, desempenho em tempo real e robustez em ambientes complexos.

Ziyi Zhou, Pengyuan Shu, Ruize Cao, Yuntian Zhao, Ye Zhao2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

O artigo NuNext reformula a detecção de núcleos em histopatologia como uma tarefa de previsão do próximo ponto, utilizando um modelo de linguagem multimodal grande com treinamento em duas etapas (supervisão suave e ajuste fino por reforço) para gerar diretamente os centróides dos núcleos e superar os desequilíbrios e complexidades das abordagens existentes.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Este artigo investiga a capacidade de modelos de linguagem grandes (LLMs) de sintetizar código C# executável no Unity, partindo de Padrões Jogáveis de Objetivo (GPCs), demonstrando que, embora os modelos possam gerar código, a síntese escalável é limitada principalmente por falhas de "grounding" estrutural e de projeto ao tentar atender simultaneamente às restrições sintéticas do motor e ao significado semântico dos padrões de jogo.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

O artigo apresenta o ConservationBench, um benchmark que revela que os Modelos de Linguagem e Visão (VLMs) atuais falham sistematicamente ao raciocinar sobre transformações físicas e não conseguem manter representações invariantes de propriedades físicas em cenas dinâmicas, dependendo excessivamente de priores textuais em vez de compreensão visual genuína.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs