MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Este artículo presenta MuSaG, el primer conjunto de datos multimodal en alemán para la detección de sarcasmo, que incluye anotaciones humanas alineadas de texto, audio y video, y revela una brecha significativa entre el rendimiento de los modelos actuales (que dependen principalmente del texto) y el de los humanos (que se basan fuertemente en el audio), motivando así el desarrollo de sistemas más robustos para escenarios realistas.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Este trabajo presenta el Protocolo de Datos de Agentes (ADP), un lenguaje de representación ligero que unifica conjuntos de datos fragmentados en un formato estandarizado, permitiendo el ajuste fino efectivo de modelos de lenguaje para agentes y logrando un rendimiento superior en diversas tareas sin necesidad de optimización específica por dominio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

El artículo presenta CareMedEval, un nuevo conjunto de datos derivado de exámenes médicos franceses diseñado para evaluar la capacidad de razonamiento crítico y la comprensión de artículos científicos en modelos de lenguaje, revelando que, aunque el razonamiento intermedio mejora el rendimiento, los modelos actuales aún tienen dificultades significativas en tareas especializadas de evaluación biomédica.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

El artículo presenta Dripper, un marco de trabajo ligero basado en modelos de lenguaje pequeños que reformula la extracción de contenido principal como una tarea de etiquetado de secuencias para lograr un equilibrio óptimo entre eficiencia y precisión, superando a los métodos heurísticos tradicionales y rivalizando con modelos generativos masivos mientras se evita el costo computacional excesivo.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Este estudio utiliza explicaciones contrastivas y atribución de saliencia para identificar los tokens de entrada en inglés que desencadenan elecciones de género específicas en modelos de traducción automática hacia alemán y español, revelando una notable superposición entre estas atribuciones del modelo y las percepciones humanas de género.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

El artículo presenta NRR-Core, un marco computacional que desafía la limitación arquitectónica actual de la IA al proponer la retención de la ambigüedad como un modo de razonamiento válido mediante principios como la no identidad y la atención no colapsante, permitiendo que las interpretaciones conflictivas coexistan hasta que el contexto lo requiera.

Kei Saito2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

El artículo presenta DevRev-Search, un marco que combina una tubería automatizada de construcción de datos con una estrategia de adaptación que preserva el índice (ajustando solo el codificador de consultas), permitiendo la adaptación eficiente y escalable de sistemas de búsqueda empresarial multiinquilino sin necesidad de reindexación costosa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Este trabajo propone un paradigma de aprendizaje post-entrenamiento donde los grafos de conocimiento actúan como modelos de recompensa implícitos para guiar a los modelos de lenguaje hacia un razonamiento composicional robusto, demostrando que un modelo de 14B entrenado con señales derivadas de caminos de conocimiento supera a sistemas mucho más grandes en tareas de razonamiento médico de múltiples saltos.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Este estudio presenta un enfoque pionero que combina el razonamiento paso a paso con aprendizaje por refuerzo para entrenar modelos de lenguaje a abstenerse de responder en preguntas temporales, logrando superar a GPT-4o en precisión y mejorar significativamente la detección de preguntas no respondibles en comparación con métodos tradicionales de ajuste fino.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Este estudio demuestra que los Modelos de Razonamiento Avanzado no superan consistentemente a los modelos estándar en tareas de Teoría de la Mente debido a fallos en el pensamiento lento y a la dependencia de atajos de opción múltiple, lo que indica que se necesitan capacidades únicas más allá de los métodos de razonamiento actuales para lograr una comprensión social robusta.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Este trabajo presenta el primer estudio de procesamiento del lenguaje natural sobre el dialecto Meenzerisch de Maguncia, demostrando que los modelos de lenguaje actuales tienen un rendimiento muy bajo tanto en la generación de definiciones como en la producción de palabras en este dialecto, lo que subraya la urgente necesidad de más recursos e investigación para su preservación.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Este artículo presenta un nuevo conjunto de datos en checo para el análisis de sentimientos basado en aspectos en el sector de la restauración, enriquecido con términos de opinión y evaluado mediante modelos Transformer y LLM, proponiendo además una metodología de alineación por traducción que mejora el rendimiento en lenguas de recursos limitados.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL