TopoBench: Benchmarking LLMs on Hard Topological Reasoning

O artigo apresenta o TopoBench, um benchmark para avaliar a capacidade de raciocínio topológico de modelos de linguagem, revelando que o principal gargalo para a resolução de quebra-cabeças complexos não é a lógica em si, mas a extração e manutenção de restrições espaciais a partir de representações visuais.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Este artigo apresenta um método reutilizável de baixo custo que utiliza prompts genéricos, verificação hierárquica e reparo iterativo assistido por agentes para traduzir automaticamente ambientes complexos de Aprendizado por Reforço em implementações de alto desempenho semanticamente equivalentes, alcançando ganhos de velocidade de até 22.320 vezes em relação a referências existentes.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artigo estabelece regras prescritivas para a alocação ótima de recursos computacionais no pós-treinamento por reforço de LLMs, demonstrando que o número ideal de rolagens paralelas por problema aumenta e depois satura conforme o orçamento de computação, com mecanismos distintos para problemas fáceis e difíceis, enquanto o tamanho do lote de problemas pode ser ajustado em uma ampla faixa sem comprometer a estabilidade.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

O artigo apresenta o GlyphBanana, uma abordagem sem treinamento que utiliza um fluxo de trabalho agêntico com ferramentas auxiliares para injetar modelos de glifos no espaço latente e nos mapas de atenção, permitindo que modelos de texto-para-imagem gerem com alta precisão caracteres complexos e fórmulas matemáticas.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Este artigo estabelece uma caracterização quantitativa do esquecimento no pós-treinamento contínuo de modelos generativos, demonstrando teoricamente como a direção da divergência de KL (forward vs. reverse), a sobreposição geométrica das distribuições e o uso de replay determinam se ocorre colapso de massa ou deriva de componentes, fornecendo condições explícitas para mitigar esses efeitos em métodos recentes.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

O BehaviorVLM é um quadro unificado baseado em modelos de visão e linguagem que permite a estimativa de pose e a compreensão comportamental de animais em movimento livre sem necessidade de ajuste fino específico, utilizando raciocínio explícito e verificável para minimizar o esforço de anotação humana e garantir escalabilidade e interpretabilidade.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Este artigo apresenta o benchmark MADQA e um novo protocolo de avaliação para demonstrar que, embora os agentes multimodais mais avançados atinjam precisão humana, eles dependem de buscas exaustivas e falham em replicar o raciocínio estratégico eficiente, mantendo uma lacuna significativa de desempenho em relação ao ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

O artigo apresenta o conceito de "Materiais com Prova de Carga" (Proof-Carrying Materials), um protocolo que combina falsificação adversária, refinamento estatístico e certificação formal no Lean 4 para garantir a segurança de potenciais interatômicos aprendidos por máquina, demonstrando que essa abordagem supera drasticamente os filtros de MLIPs únicos ao recuperar 93% dos materiais estáveis que seriam erroneamente descartados.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabalho apresenta o WORKSWORLD, um novo domínio para planejadores numéricos independentes de domínio que automatiza o planejamento e agendamento integrados de fluxos de trabalho de dados distribuídos, permitindo a construção e alocação de grafos de fluxo em recursos de rede sem a necessidade de declarar explicitamente o grafo completo como objetivo.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

O artigo apresenta a RDNet, uma rede de detecção de objetos salientes em imagens de sensoriamento remoto óptico que supera os desafios de variação de escala e dependências de longo alcance ao substituir a base CNN pelo SwinTransformer e integrar módulos inovadores de detalhe adaptativo, aprimoramento de contexto por frequência e localização consciente da proporção da região.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

O artigo apresenta o Idea-Catalyst, um novo framework baseado em LLMs que fomenta a criatividade científica ao decompor objetivos de pesquisa abstratos em desafios conceituais agnósticos a domínios para identificar e sintetizar insights interdisciplinares, resultando em um aumento significativo na novidade e na profundidade das ideias geradas.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Separable neural architectures as a primitive for unified predictive and generative intelligence

Este artigo apresenta a arquitetura neural separável (SNA) como um primitivo unificado para inteligência preditiva e generativa, que ao impor viés indutivo estrutural para fatorizar mapeamentos de alta dimensão em componentes de baixa aridade, permite a modelagem eficaz de sistemas caóticos, linguísticos e físicos em domínios diversos.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG