cs.CL artículos | Gist.Science

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Este artículo presenta MuSaG, el primer conjunto de datos multimodal en alemán para la detección de sarcasmo, que incluye anotaciones humanas alineadas de texto, audio y video, y revela una brecha significativa entre el rendimiento de los modelos actuales (que dependen principalmente del texto) y el de los humanos (que se basan fuertemente en el audio), motivando así el desarrollo de sistemas más robustos para escenarios realistas.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Este trabajo presenta el Protocolo de Datos de Agentes (ADP), un lenguaje de representación ligero que unifica conjuntos de datos fragmentados en un formato estandarizado, permitiendo el ajuste fino efectivo de modelos de lenguaje para agentes y logrando un rendimiento superior en diversas tareas sin necesidad de optimización específica por dominio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

El artículo presenta CareMedEval, un nuevo conjunto de datos derivado de exámenes médicos franceses diseñado para evaluar la capacidad de razonamiento crítico y la comprensión de artículos científicos en modelos de lenguaje, revelando que, aunque el razonamiento intermedio mejora el rendimiento, los modelos actuales aún tienen dificultades significativas en tareas especializadas de evaluación biomédica.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Este trabajo presenta la creación del corpus HealthQuote.NL mediante la extracción de metáforas de pacientes oncológicos neerlandeses utilizando grandes modelos de lenguaje con estrategias de prompting y validación humana, con el objetivo de mejorar la comunicación clínica y la atención personalizada.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

Este trabajo demuestra que, al predecir la persuasión de un argumento, los modelos de emociones basados en la evaluación cognitiva (apreciación) superan a los modelos de emociones categóricas tradicionales, al considerar mejor la subjetividad del receptor.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Este artículo presenta el desarrollo de un modelo de lenguaje multimodal robusto para el euskera, demostrando que es posible lograr buenos resultados con una mezcla de datos donde el euskera representa solo el 20% y sin necesidad de utilizar un modelo base previamente adaptado a este idioma.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

El artículo presenta Dripper, un marco de trabajo ligero basado en modelos de lenguaje pequeños que reformula la extracción de contenido principal como una tarea de etiquetado de secuencias para lograr un equilibrio óptimo entre eficiencia y precisión, superando a los métodos heurísticos tradicionales y rivalizando con modelos generativos masivos mientras se evita el costo computacional excesivo.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Este estudio utiliza explicaciones contrastivas y atribución de saliencia para identificar los tokens de entrada en inglés que desencadenan elecciones de género específicas en modelos de traducción automática hacia alemán y español, revelando una notable superposición entre estas atribuciones del modelo y las percepciones humanas de género.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

El artículo presenta NRR-Core, un marco computacional que desafía la limitación arquitectónica actual de la IA al proponer la retención de la ambigüedad como un modo de razonamiento válido mediante principios como la no identidad y la atención no colapsante, permitiendo que las interpretaciones conflictivas coexistan hasta que el contexto lo requiera.

Kei Saito2026-03-05🤖 cs.AI

A Systematic Analysis of Biases in Large Language Models

Este estudio analiza sistemáticamente los sesgos políticos, ideológicos, de alianzas, lingüísticos y de género en cuatro modelos de lenguaje grandes ampliamente utilizados, revelando que, a pesar de estar alineados para ser neutrales, estos modelos aún exhiben diversas inclinaciones y prejuicios.

Xulang Zhang, Rui Mao, Erik Cambria2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

Este estudio demuestra que el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) mejora la generalización en tareas de razonamiento causal sobre modelos gráficos, siempre que el modelo posea una competencia inicial suficiente, superando en este aspecto al ajuste fino supervisado (SFT).

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

El artículo presenta DevRev-Search, un marco que combina una tubería automatizada de construcción de datos con una estrategia de adaptación que preserva el índice (ajustando solo el codificador de consultas), permitiendo la adaptación eficiente y escalable de sistemas de búsqueda empresarial multiinquilino sin necesidad de reindexación costosa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Este trabajo propone un paradigma de aprendizaje post-entrenamiento donde los grafos de conocimiento actúan como modelos de recompensa implícitos para guiar a los modelos de lenguaje hacia un razonamiento composicional robusto, demostrando que un modelo de 14B entrenado con señales derivadas de caminos de conocimiento supera a sistemas mucho más grandes en tareas de razonamiento médico de múltiples saltos.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed🤖 cs.AI

NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference

El artículo presenta NRR-Phi, un marco formal que mapea texto a un espacio de estados no colapsante mediante detección de conflictos y extracción de interpretaciones para preservar la ambigüedad semántica en la inferencia de modelos de lenguaje grandes.

Kei Saito2026-03-05🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Este estudio presenta un enfoque pionero que combina el razonamiento paso a paso con aprendizaje por refuerzo para entrenar modelos de lenguaje a abstenerse de responder en preguntas temporales, logrando superar a GPT-4o en precisión y mejorar significativamente la detección de preguntas no respondibles en comparación con métodos tradicionales de ajuste fino.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

El artículo propone REAL, un marco que reformula el aprendizaje por refuerzo con recompensas verificables como un problema de clasificación para corregir asignaciones de gradiente subóptimas y lograr un rendimiento superior y más estable en tareas de razonamiento matemático en comparación con métodos como GRPO y DAPO.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

El artículo presenta SureLock, un método que acelera la decodificación de modelos de lenguaje de difusión enmascarada al bloquear dinámicamente las posiciones de tokens ya convergentes para reducir la complejidad computacional de $O(N^2d)$ a $O(MNd)$ sin comprometer la calidad de generación.

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko + 1 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Este estudio demuestra que los Modelos de Razonamiento Avanzado no superan consistentemente a los modelos estándar en tareas de Teoría de la Mente debido a fallos en el pensamiento lento y a la dependencia de atajos de opción múltiple, lo que indica que se necesitan capacidades únicas más allá de los métodos de razonamiento actuales para lograr una comprensión social robusta.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Este trabajo presenta el primer estudio de procesamiento del lenguaje natural sobre el dialecto Meenzerisch de Maguncia, demostrando que los modelos de lenguaje actuales tienen un rendimiento muy bajo tanto en la generación de definiciones como en la producción de palabras en este dialecto, lo que subraya la urgente necesidad de más recursos e investigación para su preservación.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Este artículo presenta un nuevo conjunto de datos en checo para el análisis de sentimientos basado en aspectos en el sector de la restauración, enriquecido con términos de opinión y evaluado mediante modelos Transformer y LLM, proponiendo además una metodología de alineación por traducción que mejora el rendimiento en lenguas de recursos limitados.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

← Anterior Siguiente →