Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este estudio evalúa técnicas de aumento de datos y mejora de características para la detección de discurso de odio, demostrando que el modelo de código abierto gpt-oss-20b obtiene los mejores resultados generales, mientras que el Delta TF-IDF alcanza una precisión del 98.2% en el conjunto de datos Stormfront, y concluye que la detección de discurso de odio implícito es más difícil y que la eficacia de las estrategias depende de la interacción entre el modelo, el conjunto de datos y la técnica utilizada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Este estudio presenta un marco de evaluación de dos capas para analizar la capacidad de los modelos de IA de simular preguntas realistas y pedagógicamente útiles durante los debates orales de tribunales simulados, revelando que, aunque logran una alta precisión en la identificación de problemas legales sustantivos, aún presentan deficiencias significativas en la diversidad de preguntas y en la tendencia a la adulación.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Este artículo presenta un sistema neuro-simbólico que combina el modelo de lenguaje Gemini Deep Think con una búsqueda en árbol y retroalimentación numérica para resolver autónomamente un problema abierto en física teórica, derivando exitosamente soluciones analíticas exactas y novedosas para el espectro de potencia de la radiación gravitacional emitida por cuerdas cósmicas.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

El artículo presenta IF-RewardBench, un nuevo benchmark de metaevaluación integral para modelos juez que aborda las limitaciones de las evaluaciones existentes mediante un paradigma de ranking lista a lista basado en grafos de preferencia, demostrando una mayor correlación con el rendimiento en tareas posteriores y revelando deficiencias significativas en los modelos juez actuales.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este artículo propone un marco de percepción que preserva la privacidad mediante una arquitectura colaborativa borde-nube que transforma las imágenes en vectores de características abstractos e irreconstruibles en el borde para eliminar la identidad, permitiendo al mismo tiempo la recuperación de referencias visuales ilustrativas en la nube para el reconocimiento de comportamientos sin exponer datos visuales crudos.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Este artículo compara un sistema de memoria basado en hechos con modelos de lenguaje de gran contexto, demostrando que, aunque el enfoque de gran contexto ofrece mayor precisión en ciertas tareas, el sistema de memoria resulta más rentable a largo plazo en interacciones persistentes debido a su perfil de costos fijos por turno.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Este estudio meta-analítico revela que la calificación automática de respuestas cortas mediante IA presenta deficiencias significativas, incluyendo una desconexión entre la dificultad percibida por humanos y el rendimiento de los modelos, una superioridad de los arquitecturas codificadoras sobre las decodificadoras, y sesgos raciales preocupantes en contextos educativos de alto riesgo.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

El artículo propone GDS, un método que detecta datos de pre-entrenamiento en modelos de lenguaje grandes analizando las desviaciones de gradiente (magnitud, ubicación y concentración) para superar las limitaciones de los enfoques existentes y lograr un rendimiento superior con mayor transferibilidad entre conjuntos de datos.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL