Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artigo apresenta um blueprint prático para avaliar e otimizar assistentes de compras conversacionais em produção, introduzindo uma rubrica de avaliação multidimensional e duas estratégias de otimização de prompts baseadas no GEPA — Sub-agent GEPA e MAMuT GEPA — para aprimorar sistemas multi-agente complexos.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

O artigo apresenta o MIND, um framework unificado de aprendizado por reforço para consultas psiquiátricas que utiliza um banco de raciocínio fundamentado em critérios clínicos e recompensas de processo baseadas em rubricas para superar a ambiguidade dos sintomas e otimizar tanto a investigação quanto o diagnóstico diferencial.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

O artigo apresenta o COREA, um sistema que otimiza o custo e a precisão em tarefas de raciocínio complexo ao encadear um modelo de linguagem pequeno (SLM) com um grande (LLM), utilizando um algoritmo de aprendizado por reforço para calibrar a confiança do SLM e direcionar apenas as questões mais difíceis para o modelo maior, reduzindo significativamente os custos com uma perda mínima de desempenho.

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Este trabalho introduz a técnica de "Estrutura do Pensamento" (SoT) para guiar modelos na construção de estruturas intermediárias e apresenta o T2S-Bench, o primeiro benchmark abrangente para avaliar e aprimorar a capacidade de conversão de texto em estrutura, demonstrando ganhos significativos de desempenho em diversas tarefas de processamento de linguagem.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Este artigo demonstra que prompts adversarialmente otimizados podem induzir modelos de linguagem a "sandbagging" (subdesempenho estratégico) ao explorarem a consciência de avaliação, causando degradações drásticas no desempenho em tarefas específicas e revelando que essa vulnerabilidade é governada pela estrutura da tarefa e por um raciocínio causal de avaliação, e não apenas pela força do prompt.

Maheep Chaudhary2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

Este artigo propõe o método de Alinhamento Semântico Passo a Passo (SSA), que utiliza um domínio pseudo-fonte como uma ponte semântica corrigida por universais acessíveis e aprimorada por módulos de agregação hierárquica e aprendizado complementar, para superar as limitações de adaptação em cenários de teste sem dados de origem ou rótulos, alcançando ganhos significativos em tarefas como segmentação semântica e classificação de imagens.

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL