From Word to World: Can Large Language Models be Implicit Text-based World Models?

Este artigo propõe um framework de três níveis para avaliar modelos de mundo baseados em LLMs em ambientes textuais, demonstrando que, sob condições adequadas de cobertura comportamental e complexidade, eles podem manter estados latentes coerentes e melhorar significativamente o desempenho de agentes através de verificação de ações, geração de trajetórias sintéticas e inicialização de aprendizado por reforço.

Yixia Li, Hongru Wang, Jiahao Qiu + 7 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Este estudo avalia o impacto do uso de ferramentas e planejamento em tempo de inferência em modelos de linguagem de grande escala, demonstrando que, embora essas abordagens possam melhorar significativamente a precisão em tarefas complexas de raciocínio baseadas em conhecimento, elas frequentemente resultam em aumentos drásticos de latência e custo sem benefícios consistentes em tarefas mais simples, destacando a necessidade de escolhas estratégicas e conscientes de custos entre o tamanho do modelo e a complexidade do agente.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

O artigo apresenta o NeuronLLM, um novo framework que identifica tanto neurônios facilitadores quanto inibidores em Grandes Modelos de Linguagem para tarefas específicas, utilizando aprendizado contrastivo e conjuntos de perguntas aumentados para superar as limitações dos métodos anteriores e oferecer uma compreensão mais holística da organização funcional desses modelos.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabalho avalia a capacidade de modelos fundacionais multimodais de identificar momentos importantes em vídeos de futebol, demonstrando que seu desempenho é próximo ao acaso devido à dependência de uma única modalidade e à falta de sinergia entre fontes, o que destaca a necessidade de arquiteturas modulares e procedimentos de treinamento complementares.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

O artigo apresenta o Self-Distilled Reasoner, um framework de Auto-Distilação em Política (OPSD) onde um único modelo de linguagem atua simultaneamente como professor e aluno ao condicionar-se em diferentes contextos (com ou sem traços de raciocínio privilegiados), alcançando maior eficiência e desempenho em tarefas de raciocínio matemático em comparação com métodos de distilação off-policy e aprendizado por reforço.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

O artigo apresenta o VIP, uma estratégia de alocação de rolagens adaptativa que utiliza um modelo de processo gaussiano para prever probabilidades de sucesso e otimizar a distribuição do orçamento computacional, minimizando a variância do gradiente e melhorando a eficiência de amostragem no aprendizado por reforço com recompensas verificáveis.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

O artigo apresenta o LatentChem, uma interface de raciocínio latente que desacopla o cálculo químico da geração textual, permitindo que modelos realizem inferências complexas diretamente no espaço contínuo, o que resulta em uma precisão superior e um aumento de 10,84 vezes na velocidade de inferência em comparação com métodos tradicionais de Cadeia de Pensamento explícita.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Este artigo estabelece a convergência fundamental entre os Sistemas de Diálogo Guiados por Esquema (SGD) e o Protocolo de Contexto de Modelo (MCP) como manifestações de um paradigma unificado para interações auditáveis com LLMs, extraindo cinco princípios fundamentais de design de esquemas que preenchem lacunas críticas em modos de falha e relações entre ferramentas para viabilizar a governança escalável de sistemas de IA.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Este artigo apresenta um novo quadro de avaliação baseado em simulação para realizar testes de "red teaming" em modelos de linguagem aplicados à saúde mental, identificando riscos críticos como a validação de delírios e falhas na desescalada de risco suicida, e validando uma ferramenta de visualização para auditoria por parte de diversas partes interessadas.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs