cs.CL artículos | Gist.Science

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Este artículo presenta un enfoque pionero para la adquisición simultánea de video de resonancia magnética en tiempo real, EEG y EMG superficial, junto con un pipeline de supresión de artefactos, con el fin de capturar integralmente la actividad cerebral, muscular y articular durante la producción del habla.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Why Is RLHF Alignment Shallow? A Gradient Analysis

Este artículo demuestra teóricamente que la alineación basada en RLHF es superficial porque los gradientes de entrenamiento se anulan una vez que se determina el daño en la secuencia, y propone un nuevo objetivo basado en penalizaciones de recuperación para generar señales de gradiente en todas las posiciones y lograr una alineación profunda.

Robin Young2026-03-06🤖 cs.LG

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

SinhaLegal presenta un corpus de aproximadamente 2 millones de palabras extraído de 1.206 documentos legislativos en sinhala, procesados y limpiados meticulosamente para servir como recurso fundamental en tareas de procesamiento del lenguaje natural y análisis jurídico en este idioma.

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

El artículo presenta HACHIMI, un marco multiagente que genera un corpus de un millón de perfiles estudiantiles sintéticos alineados con teorías educativas y controlables en su distribución, demostrando una alta fidelidad en la simulación de constructos matemáticos y de curiosidad frente a encuestas reales como PISA 2022.

Yilin Jiang, Fei Tan, Xuanyu Yin + 2 more2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

El artículo presenta FireBench, un nuevo benchmark de código abierto basado en casos de uso reales empresariales y de API que evalúa la capacidad de seguimiento de instrucciones de 11 modelos de lenguaje en seis dimensiones clave, superando las limitaciones de las evaluaciones centradas únicamente en asistentes de chat.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Este trabajo propone un método de muestreo diverso y sin entrenamiento que modifica secuencialmente las muestras intermedias en modelos de lenguaje difusivos para penalizar la redundancia, logrando así una mejora significativa en la diversidad y el rendimiento Pass@ $k$ en tareas de razonamiento complejo con un costo computacional mínimo.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Este estudio compara el rendimiento y los patrones de incertidumbre de los modelos de lenguaje grande (LLM) frente a expertos humanos en la identificación de valores según la teoría de Schwartz en entrevistas etnográficas, revelando que, aunque los LLM alcanzan un alto rendimiento en métricas de conjunto y mejoran con métodos de ensamble, sus estructuras de incertidumbre y sesgos sistemáticos difieren de los expertos, lo que subraya tanto su potencial como colaboradores como las limitaciones actuales en el análisis cualitativo ambiguo.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Este estudio demuestra que las intervenciones de alineación en modelos de lenguaje grandes pueden provocar un "efecto rebote" dependiente del idioma, donde la seguridad superficial en inglés se invierte en patologías colectivas y disociación en otros idiomas como el japonés, revelando que la validación de seguridad en inglés no garantiza resultados seguros en otros contextos lingüísticos y culturales.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Este artículo presenta un pipeline de LLMs agénticos novedoso para la tarea 10 de SemEval-2026 que, mediante la arquitectura DD-CoT y un sistema de "Anti-Cámara de Eco", logra resultados superiores en la extracción de marcadores psicolingüísticos de conspiración y la detección de su respaldo, estableciendo un paradigma interpretable y fundamentado en la psicolingüística.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

El sistema AILS-NTUA presentado en este trabajo aborda la Tarea 3 de SemEval-2026 sobre Análisis de Sentimiento Basado en Aspectos Dimensional mediante un enfoque unificado que combina el ajuste fino de codificadores y la adaptación eficiente de grandes modelos de lenguaje para lograr un rendimiento competitivo en regresión, extracción de tripletes y predicción de cuádruplets multilingües.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

Este artículo propone un paradigma de emparejamiento y fusión con dos algoritmos, GMMA y RMMA, para optimizar modelos de lenguaje heterogéneos en sistemas de reconocimiento automático de voz federados, demostrando que RMMA logra una menor tasa de error de caracteres y una convergencia significativamente más rápida que los métodos existentes.

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

El artículo presenta LocalSUG, un marco de sugerencia de consultas basado en LLM que aborda los desafíos de la falta de fundamentación geográfica, el sesgo de exposición y la latencia en los servicios de vida local mediante estrategias de minería de candidatos sensibles a la ciudad, un algoritmo GRPO impulsado por búsqueda en haz y técnicas de aceleración, logrando mejoras significativas en el CTR y la reducción de consultas sin resultados en pruebas en línea a gran escala.

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

TimeWarp: Evaluating Web Agents by Revisiting the Past

El artículo presenta TimeWarp, un nuevo benchmark que evalúa la robustez de los agentes web frente a cambios en el diseño y la interfaz de usuario, y propone TimeTraj, un algoritmo que utiliza la destilación de planes en múltiples versiones para superar las limitaciones de los métodos actuales y mejorar significativamente el rendimiento de los modelos.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

El artículo presenta VisionPangu, un modelo multimodal compacto de 1.7B de parámetros que, mediante la alineación eficiente y el uso de descripciones humanas densas del conjunto de datos DOCCI, logra generar descripciones de imágenes detalladas y semánticamente coherentes sin depender de arquitecturas a gran escala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Replaying pre-training data improves fine-tuning

El estudio demuestra que reproducir datos genéricos durante el ajuste fino de modelos de lenguaje mejora significativamente el rendimiento y la eficiencia en tareas de dominio específico, superando el enfoque tradicional que solo utiliza estos datos para prevenir el olvido catastrófico.

Suhas Kotha, Percy Liang2026-03-06🤖 cs.LG

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

El artículo presenta la Optimización de Preferencias Ponderada por Confianza (CW-PO), un marco que utiliza un modelo de lenguaje débil para reponderar muestras de entrenamiento, logrando un rendimiento superior al de los métodos tradicionales con anotaciones humanas completas al seleccionar solo un subconjunto de muestras altamente confiables.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

El artículo presenta MPCEval, una suite de evaluación y benchmarking diseñada para medir la generación de conversaciones multipersona mediante métricas cuantitativas y sin referencia que descomponen la calidad en modelado del hablante, calidad del contenido y consistencia entre ambos, revelando cómo los objetivos de evaluación influyen en la percepción de las capacidades de los modelos de IA generativa.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

El artículo presenta MOUE, una generalización de los modelos de expertos mezclados (MoE) que introduce la "ancho virtual" al reutilizar expertos universales entre capas mediante una topología rotacional escalonada y mecanismos de balanceo de carga específicos, logrando mejoras significativas en el rendimiento y la escalabilidad frente a las arquitecturas MoE convencionales.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Este artículo propone un método de fusión de modelos de lenguaje grande (LLM) basado en el cálculo de la media de Karcher en la variedad de Fisher-Rao, que supera las limitaciones de los enfoques euclídeos al preservar la funcionalidad predictiva y evitar el colapso de representaciones al combinar múltiples expertos heterogéneos.

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

VRM: Teaching Reward Models to Understand Authentic Human Preferences

El artículo presenta VRM (Modelado de Recompensa Variacional), un nuevo marco que supera las limitaciones de los modelos de recompensa tradicionales al imitar el proceso de evaluación humana mediante la inferencia variacional de pesos de objetivos de alta dimensión y características semánticas de baja dimensión, logrando así una mejor generalización y una captura más auténtica de las preferencias humanas.

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

← Anterior Siguiente →

cs.CL