cs.CL artículos | Gist.Science

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

El artículo presenta RexDrug, un marco de extracción de relaciones potenciado por razonamiento basado en modelos de lenguaje grande que, mediante una estrategia de entrenamiento de dos etapas con colaboración multiagente y aprendizaje por refuerzo, supera a los métodos existentes en la identificación precisa de combinaciones de n-ary medicamentos y sus lógicas de compatibilidad en la literatura biomédica.

Zhijun Wang, Ling Luo, Dinghao Pan, Huan Zhuang, Lejing Yu, Yuanyuan Sun, Hongfei Lin2026-03-10💬 cs.CL

Is continuous CoT better suited for multi-lingual reasoning?

El estudio demuestra que el razonamiento en cadena en un espacio latente continuo (CODI) supera al razonamiento explícito en idiomas de bajos recursos y escenarios zero-shot, ofreciendo una solución escalable con una compresión de trazas de 29 a 50 veces.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

El artículo presenta TildeOpen LLM, un modelo de lenguaje abierto de 30 mil millones de parámetros entrenado con estrategias de aprendizaje curricular y muestreo de datos para lograr una representación equitativa y un rendimiento superior en 34 idiomas europeos, especialmente en lenguas de recursos limitados como las bálticas, fino-úgricas y eslavas.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code

El artículo presenta CoPaLink, un enfoque automatizado que mejora la reproducibilidad de los flujos de trabajo bioinformáticos vinculando las menciones de herramientas en textos científicos con su implementación en código ejecutable mediante reconocimiento de entidades y vinculación basada en bases de conocimiento.

Clémence Sebe, Olivier Ferret, Aurélie Névéol, Mahdi Esmailoghli, Ulf Leser, Sarah Cohen-Boulakia2026-03-10💬 cs.CL

The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

El artículo sostiene que la evaluación actual de los ataques de reconstrucción contra técnicas de eliminación de información de identificación personal (PII) está viciada por fugas de datos y contaminación, lo que impide determinar de forma transparente y reproducible si estas técnicas protegen realmente la privacidad debido a las restricciones en el acceso a datos verdaderamente privados.

Sebastian Ochs, Ivan Habernal2026-03-10💬 cs.CL

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

El modelo DualTurn cierra la brecha entre los sistemas de voz naturales y las capacidades de razonamiento mediante un preentrenamiento generativo en audio de doble canal que aprende dinámicas conversacionales implícitas para predecir turnos de habla y acciones de agente con mayor precisión y anticipación que los enfoques anteriores.

Shangeth Rajaa2026-03-10💬 cs.CL

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Este artículo presenta la Matriz de Transferencia Cross-Lingual (CLTM), un método sistemático para cuantificar cómo los datos de un idioma donante afectan el rendimiento en tareas paralingüísticas como la identificación de género y la verificación de hablante en un idioma objetivo, revelando patrones de transferencia distintos y dependientes del idioma.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier Hernando2026-03-10💬 cs.CL

Fibration Policy Optimization

El artículo presenta Fibration Policy Optimization (FiberPO), un marco unificado que integra la teoría de regiones de confianza y una estructura algebraica de fibración para optimizar políticas de modelos de lenguaje mediante un control de estabilidad jerárquico y multi-escala que abarca desde el nivel de tokens hasta dominios completos.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Este artículo investiga cómo el contexto sintáctico, las clases y las tareas influyen en la sensibilidad de las explicaciones de los modelos transformadores frente a la aleatoriedad del entrenamiento, demostrando que todas tienen un impacto estadísticamente significativo, siendo mayor en las tareas y menor en el contexto.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert2026-03-10💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Este artículo presenta un marco de reconocimiento de habla audiovisual para recursos cero que utiliza datos visuales sintéticos generados a partir de imágenes estáticas y audio real, logrando un rendimiento cercano al estado del arte en catalán y superando a los baselines de solo audio.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier Hernando2026-03-10💬 cs.CL

Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement

El artículo presenta CoFiCot, un marco de refinamiento adaptativo de lo grueso a lo fino que optimiza el tiempo de inferencia de los LLMs clasificando dinámicamente la dificultad de las consultas mediante múltiples métricas para aplicar estrategias de corrección diferenciadas y coherentes, evitando así tanto el exceso de procesamiento en tareas simples como la insuficiencia en las complejas.

Dongxu Zhang, Hongqiang Lin, Yiding Sun, Pengyu Wang, Qirui Wang, Ning Yang, Jihua Zhu2026-03-10💬 cs.CL

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

El sistema NCL-UoR para SemEval-2026 Task 5 demuestra que una estrategia de prompting estructurada con reglas de decisión explícitas supera a los métodos basados en incrustaciones y al ajuste fino de modelos para la tarea de calificación de la plausibilidad del sentido de las palabras.

Tong Wu, Thanet Markchom, Huizhi Liang2026-03-10💬 cs.CL

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Este estudio de 172 mil millones de tokens, que evalúa 35 modelos de lenguaje en diversos contextos, temperaturas y plataformas de hardware, revela que la alucinación en respuestas basadas en documentos es un problema generalizado que aumenta drásticamente con la longitud del contexto, depende principalmente de la selección del modelo más que de su tamaño o del hardware utilizado, y que la capacidad de encontrar hechos no garantiza la resistencia a inventar información.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

El artículo presenta AdaCultureSafe, un marco que integra conocimientos culturales autorizados en modelos de lenguaje grandes para mejorar su seguridad cultural, demostrando mediante un nuevo dataset de 48K consultas que la seguridad y el conocimiento cultural no están correlacionados actualmente y proponiendo un método basado en el conocimiento para resolver esta desconexión.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artículo evalúa la capacidad de los modelos de lenguaje grandes para revisar propuestas de subvenciones mediante perturbaciones estructuradas, concluyendo que un enfoque de análisis por secciones supera a otros métodos pero que los sistemas actuales presentan variabilidad y priorizan la verificación de cumplimiento sobre la evaluación holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

El artículo presenta SBARThez, un marco innovador que combina incrustaciones de oraciones multimodales y multilingües con un mecanismo de inyección de entidades nombradas en un modelo BART modificado para generar resúmenes abstractos más precisos, concisos y factualmente consistentes en múltiples idiomas y formatos de entrada.

Chaimae Chellaf, Salima Mdhaffar, Yannick Estève, Stéphane Huet2026-03-10💬 cs.CL

LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs

Este artículo presenta LAMUS, un corpus a gran escala para la minería de argumentos legales en jurisprudencia de EE. UU. (Suprema Corte y apelaciones penales de Texas), construido mediante un pipeline centrado en datos que combina la recolección masiva, la anotación automática con LLMs y la refinación humana, demostrando que el prompting de cadena de pensamiento y la verificación asistida por LLMs mejoran significativamente la calidad y consistencia de las anotaciones.

Serene Wang, Lavanya Pobbathi, Haihua Chen2026-03-10💬 cs.CL

Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder

Este trabajo propone un marco de post-entrenamiento unificado que extiende los modelos fundacionales de voz para generar múltiples representaciones a nivel de enunciado (como semánticas y de hablante) desde un único modelo, demostrando su eficacia en tareas de recuperación de voz multilingüe y reconocimiento de hablantes.

Maryem Bouziane, Salima Mdhaffar, Yannick Estève2026-03-10💬 cs.CL

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

El artículo presenta SlowBA, un ataque de puerta trasera novedoso que compromete la eficiencia de los agentes de interfaz gráfica basados en modelos de lenguaje y visión al inducir cadenas de razonamiento excesivamente largas mediante patrones de activación específicos, aumentando significativamente la latencia de respuesta sin sacrificar la precisión de la tarea.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

SPD-RAG es un marco jerárquico de agentes múltiples que mejora la calidad y la escalabilidad en la respuesta a preguntas complejas sobre múltiples documentos al asignar un agente dedicado a cada documento para la recuperación enfocada y sintetizar sus respuestas parciales mediante un coordinador, superando así a los métodos RAG estándar y de agentes individuales en el benchmark LOONG con un coste de API significativamente menor.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

← Anterior Siguiente →