AutoHarness: improving LLM agents by automatically synthesizing a code harness
O artigo "AutoHarness" demonstra que o modelo de linguagem Gemini-2.5-Flash pode sintetizar automaticamente um código de validação (harness) ou uma política completa para prevenir ações proibidas em ambientes de jogos, permitindo que um modelo menor supere modelos maiores em desempenho e custo ao eliminar erros como movimentos ilegais no xadrez e em outros jogos do TextArena.