StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

Il paper presenta StealthRL, un framework di reinforcement learning che utilizza l'ottimizzazione della politica relativa di gruppo (GRPO) per generare parafrasi che evadono con successo la rilevazione da parte di molteplici detector di testo AI preservando al contempo il significato semantico, rivelando così significative vulnerabilità condivise nelle attuali tecnologie di rilevamento.

Suraj Ranganath, Atharv Ramesh2026-03-23🤖 cs.LG

A Task-Centric Theory for Iterative Self-Improvement with Easy-to-Hard Curricula

Questo articolo propone una teoria basata sui compiti per il miglioramento iterativo dei modelli linguistici, dimostrando teoricamente e validando sperimentalmente che l'uso di curricula da facile a difficile garantisce risultati superiori rispetto all'addestramento su miscele fisse di compiti, fornendo al contempo garanzie a campione finito sul rendimento atteso.

Chenruo Liu, Yijun Dong, Yiqiu Shen, Qi Lei2026-03-23📊 stat

LHAW: Controllable Underspecification for Long-Horizon Tasks

Il paper introduce LHAW, un framework modulare e agnostico rispetto al task che trasforma sistematicamente flussi di lavoro a lungo termine in varianti sottodeterminate controllabili per valutare e migliorare la capacità degli agenti autonomi di gestire l'ambiguità e cercare chiarimenti necessari.

George Pu, Michael S. Lee, Udari Madhushani Sehwag, David J. Lee, Bryan Zhu, Yash Maurya, Mohit Raghavendra, Yuan Xue, Samuel Marc Denton2026-03-23💬 cs.CL