Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

El documento presenta GOLF, un marco de aprendizaje por refuerzo que aprovecha la retroalimentación lingüística natural a nivel de grupo para guiar la exploración dirigida mediante refinamientos accionables, logrando una eficiencia de muestra significativamente superior a los métodos tradicionales basados únicamente en recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

El artículo presenta "Vibe Code Bench", un nuevo benchmark que evalúa la capacidad de 16 modelos de IA avanzados para desarrollar aplicaciones web completas de principio a fin mediante agentes autónomos, revelando que la fiabilidad en este proceso sigue siendo un desafío significativo y destacando la importancia de la autoevaluación durante la generación y la alineación de los evaluadores.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Towards automated data analysis: A guided framework for LLM-based risk estimation

Este trabajo propone un marco de trabajo guiado por humanos que utiliza modelos de lenguaje grandes (LLM) para automatizar la estimación de riesgos en conjuntos de datos mediante la identificación de propiedades semánticas y estructurales, la generación de código de agrupamiento y la interpretación de resultados, superando así las limitaciones de los métodos manuales y de la automatización puramente basada en IA.

Panteleimon Rodis2026-03-06💻 cs

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Este artículo propone que la consolidación de la memoria no solo estabiliza representaciones, sino que optimiza la generalización mediante un "olvido predictivo" que comprime la información reteniendo selectivamente lo que predice resultados futuros, un proceso iterativo que mejora los límites teóricos de generalización y ha sido validado mediante simulaciones en modelos neuronales y de lenguaje.

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este estudio evalúa técnicas de aumento de datos y mejora de características para la detección de discurso de odio, demostrando que el modelo de código abierto gpt-oss-20b obtiene los mejores resultados generales, mientras que el Delta TF-IDF alcanza una precisión del 98.2% en el conjunto de datos Stormfront, y concluye que la detección de discurso de odio implícito es más difícil y que la eficacia de las estrategias depende de la interacción entre el modelo, el conjunto de datos y la técnica utilizada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Este estudio demuestra que, contrariamente a la intuición común, utilizar el modelo de mejora de audio SAM-Audio como paso previo en sistemas de reconocimiento de voz cero-shot con Whisper degrada sistemáticamente la precisión de la transcripción en lugar de mejorarla, revelando una desconexión fundamental entre la calidad acústica perceptual y la robustez para el reconocimiento automático.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs