ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents

O artigo apresenta o ToolRLA, um pipeline de pós-treinamento em três estágios que utiliza uma função de recompensa com decomposição multiplicativa de quatro dimensões para alinhar agentes integrados a ferramentas em cenários de alto risco, resultando em melhorias significativas na taxa de conclusão de tarefas, redução de erros de invocação e conformidade regulatória em um copiloto de consultoria financeira.

Pengbo Liu2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

O artigo apresenta o IoUCert, um novo framework de verificação formal que supera as limitações existentes ao garantir a robustez de detectores de objetos baseados em âncoras, como SSD e YOLO, através de uma transformação de coordenadas que permite o cálculo de limites ótimos para a métrica de Interseção sobre União (IoU) sem degradação de precisão.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Este estudo avalia a capacidade de onze ferramentas de IA, gerais e específicas para educação, de classificar a demanda cognitiva de tarefas matemáticas, revelando que nenhuma superou 83% de precisão, com uma tendência sistemática a subestimar tarefas extremas e priorizar características textuais superficiais em detrimento dos processos cognitivos subjacentes.

Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey + 1 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Este estudo apresenta o Bielik-Q2-Sharp, a primeira avaliação sistemática de métodos de quantização extrema a 2 bits para o modelo de linguagem polonês Bielik-11B, demonstrando que o método QuIP# E8P12 atinge desempenho comparável ao baseline IQ2_XXS em benchmarks poloneses, com ganhos superiores em raciocínio e uma eficiência per-bit notável do QTIP, tudo realizado por um único pesquisador com um orçamento limitado.

Jakub Prejzner2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Este estudo demonstra que o alinhamento semântico via linguagem, através do método "Semantic Anchoring", supera a colapso de embeddings e melhora significativamente a detecção de câncer em modelos de visão computacional ao permitir a reinterpretação semântica de características visuais para generalização entre espécies e tipos de câncer, sem a necessidade de retreinamento completo.

Ekansh Arora2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

O artigo propõe o CTRL-RAG, um novo framework de recompensa híbrido baseado em Reinforcement Learning que utiliza uma Recompensa de Verossimilhança Contrastiva (CLR) para otimizar a fé dos modelos de linguagem em documentos de contexto, superando as limitações das recompensas externas e prevenindo o colapso do modelo em cenários de RAG.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

O artigo apresenta o framework HUMAINE, que utiliza um conjunto de dados demograficamente estratificado de 23.404 participantes e um modelo hierárquico bayesiano para revelar que, embora o modelo *gemini-2.5-pro* seja o líder geral, as preferências humanas variam significativamente entre grupos etários e dimensões de avaliação, destacando a necessidade de uma metodologia de avaliação multidimensional e demograficamente consciente para LLMs.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs