GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

O artigo apresenta o GraphSkill, um framework de codificação com recuperação aumentada hierárquica guiada por documentação e agente de autodepuração, que supera as limitações de métodos existentes ao explorar a estrutura hierárquica de documentos técnicos e corrigir erros lógicos, validado por meio de um novo dataset e experimentos que demonstram maior precisão e menor custo de inferência em raciocínio complexo sobre grafos.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

O artigo apresenta o SmartBench, o primeiro conjunto de dados e benchmark projetado para avaliar a capacidade de modelos de linguagem grandes (LLMs) de detectar e responder a estados anômalos em ambientes domésticos inteligentes, revelando que os modelos atuais ainda possuem desempenho insuficiente para essa tarefa crítica.

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

O artigo apresenta o HEARTS, um benchmark unificado que avalia a capacidade de raciocínio hierárquico de modelos de linguagem grandes (LLMs) em séries temporais de saúde, revelando que eles ainda superam significativamente os modelos especializados e dependem excessivamente de heurísticas simples, indicando que o aumento de escala por si só é insuficiente para lidar com a complexidade temporal real.

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

O artigo apresenta o SR-TTT, uma abordagem que resolve as falhas de recuperação de modelos de linguagem com Treinamento em Tempo de Teste (TTT) ao integrar um mecanismo de memória residual esparsa e controlada por perda, que roteia dinamicamente apenas tokens altamente surpreendentes para um cache de atenção exata, preservando assim a eficiência de memória O(1) para o contexto geral enquanto garante a retenção precisa de informações críticas.

Swamynathan V P2026-03-10🤖 cs.LG

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Este artigo apresenta um framework de aprendizado federado consciente de confiança que utiliza pontuação adaptativa e filtragem para garantir a segurança e a precisão na interpretação de estágios de cicatrização óssea em ambientes de saúde eletrônica, mitigando os efeitos de participantes não confiáveis ou adversários.

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

O artigo apresenta o ObjChangeVR, um novo framework e dataset (ObjChangeVR-Dataset) projetados para superar os desafios de detectar mudanças de estado de objetos em ambientes de realidade virtual a partir de visões egocêntricas contínuas, especialmente quando ocorrem sem interação direta do usuário, demonstrando desempenho superior em comparação com abordagens de base.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

O artigo apresenta o HURRI-GAN, uma abordagem inovadora baseada em Redes Adversariais Generativas (GANs) que corrige vieses sistemáticos do modelo de simulação física ADCIRC para prever com precisão impactos de furacões em regiões costeiras além das estações de medição, permitindo previsões mais rápidas e eficientes sem perda de acurácia.

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

O artigo propõe o Descenso de Gradiente Geodésico (GGD), um otimizador genérico e sem taxa de aprendizado que utiliza esferas n-dimensionais para aproximar a geometria local da função objetivo, garantindo que as trajetórias de atualização permaneçam na hipersuperfície e demonstrando reduções significativas no erro em comparação ao algoritmo Adam em conjuntos de dados como Burgers' e MNIST.

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

O artigo apresenta o PaLMR, um framework que alinha tanto o resultado quanto o processo de raciocínio em modelos multimodais por meio de dados conscientes da percepção e uma fusão hierárquica de recompensas, reduzindo significativamente alucinações e alcançando resultados de ponta em benchmarks de raciocínio visual.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

O artigo apresenta o GameVerse, um benchmark abrangente que demonstra como Modelos Visuais-Linguísticos podem aprimorar suas políticas de jogo através de um ciclo reflexivo que combina a análise de falhas e tutoriais em vídeo, funcionando como uma alternativa sem treinamento ao aprendizado por reforço e ao ajuste fino supervisionado.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Este capítulo examina o potencial da inteligência artificial generativa para promover a coerência no ensino, aprendizagem e avaliação da alfabetização científica nos níveis K-16+, abordando seus benefícios, desafios e a arquitetura necessária para sua implementação.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

O artigo propõe o Graph-of-Mark (GoM), uma técnica de prompting visual baseada em grafos que sobrepõe grafos de cena às imagens para melhorar o raciocínio espacial e a capacidade de localização de modelos de linguagem multimodais, superando as limitações de métodos anteriores ao capturar explicitamente as relações entre os objetos.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs