ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Este trabajo presenta ThaiSafetyBench, un nuevo benchmark de código abierto con 1.954 prompts maliciosos en tailandés que revela que los modelos de lenguaje actuales son más vulnerables a ataques culturalmente contextualizados que a ataques generales, destacando la necesidad de mejorar la seguridad de los modelos en contextos no anglófonos.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Este artículo presenta MUTEX, un marco basado en transformadores multilingües XLM-RoBERTa y campos aleatorios conditivos que logra el primer resultado de referencia supervisado para la detección de span tóxico en urdu a nivel de token, superando las limitaciones de los enfoques anteriores al abordar la complejidad lingüística y la codificación de código.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

El artículo presenta LBM, un modelo jerárquico de auto-licitación que combina un componente de razonamiento (LBM-Think) y uno de acción (LBM-Act) potenciados por modelos de lenguaje grandes, utilizando un mecanismo de doble incrustación y un ajuste fino por refuerzo offline (GQPO) para superar las limitaciones de los métodos actuales y mejorar la estrategia de pujas en subastas publicitarias dinámicas.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Este artículo presenta C2-Faith, un nuevo benchmark derivado de PRM800K para evaluar la fiabilidad de los modelos de lenguaje como jueces del razonamiento paso a paso en términos de causalidad y cobertura, revelando que su desempeño varía significativamente según la tarea y que existen brechas importantes entre la detección de errores y su localización.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Este trabajo presenta un marco que utiliza un enfoque de alineación de kernels en un modelo estudiante-entrenador para destilar la semántica de la Lógica Temporal de Señales (STL) en representaciones neuronales continuas, logrando así un razonamiento neuro-simbólico eficiente, escalable e intrínsecamente invertible que preserva la similitud semántica y predice la satisfacción de restricciones sin el costo computacional de los kernels simbólicos.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Este artículo presenta el Corpus Multilingüe en la Nube, el primer conjunto de datos lingüísticos paralelo y multimodal a escala nacional de Bangladesh, que documenta mediante trabajo de campo sistemático 42 variedades lingüísticas (incluidas 14 en peligro) de cuatro familias distintas, proporcionando transcripciones, traducciones y grabaciones de audio para impulsar la preservación digital y el procesamiento de lenguas con recursos limitados.

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL