RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

El artículo presenta RexDrug, un marco de extracción de relaciones potenciado por razonamiento basado en modelos de lenguaje grande que, mediante una estrategia de entrenamiento de dos etapas con colaboración multiagente y aprendizaje por refuerzo, supera a los métodos existentes en la identificación precisa de combinaciones de n-ary medicamentos y sus lógicas de compatibilidad en la literatura biomédica.

Zhijun Wang, Ling Luo, Dinghao Pan, Huan Zhuang, Lejing Yu, Yuanyuan Sun, Hongfei Lin2026-03-10💬 cs.CL

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

El artículo presenta TildeOpen LLM, un modelo de lenguaje abierto de 30 mil millones de parámetros entrenado con estrategias de aprendizaje curricular y muestreo de datos para lograr una representación equitativa y un rendimiento superior en 34 idiomas europeos, especialmente en lenguas de recursos limitados como las bálticas, fino-úgricas y eslavas.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code

El artículo presenta CoPaLink, un enfoque automatizado que mejora la reproducibilidad de los flujos de trabajo bioinformáticos vinculando las menciones de herramientas en textos científicos con su implementación en código ejecutable mediante reconocimiento de entidades y vinculación basada en bases de conocimiento.

Clémence Sebe, Olivier Ferret, Aurélie Névéol, Mahdi Esmailoghli, Ulf Leser, Sarah Cohen-Boulakia2026-03-10💬 cs.CL

The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

El artículo sostiene que la evaluación actual de los ataques de reconstrucción contra técnicas de eliminación de información de identificación personal (PII) está viciada por fugas de datos y contaminación, lo que impide determinar de forma transparente y reproducible si estas técnicas protegen realmente la privacidad debido a las restricciones en el acceso a datos verdaderamente privados.

Sebastian Ochs, Ivan Habernal2026-03-10💬 cs.CL

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Este artículo presenta la Matriz de Transferencia Cross-Lingual (CLTM), un método sistemático para cuantificar cómo los datos de un idioma donante afectan el rendimiento en tareas paralingüísticas como la identificación de género y la verificación de hablante en un idioma objetivo, revelando patrones de transferencia distintos y dependientes del idioma.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier Hernando2026-03-10💬 cs.CL

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Este artículo investiga cómo el contexto sintáctico, las clases y las tareas influyen en la sensibilidad de las explicaciones de los modelos transformadores frente a la aleatoriedad del entrenamiento, demostrando que todas tienen un impacto estadísticamente significativo, siendo mayor en las tareas y menor en el contexto.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert2026-03-10💬 cs.CL

Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement

El artículo presenta CoFiCot, un marco de refinamiento adaptativo de lo grueso a lo fino que optimiza el tiempo de inferencia de los LLMs clasificando dinámicamente la dificultad de las consultas mediante múltiples métricas para aplicar estrategias de corrección diferenciadas y coherentes, evitando así tanto el exceso de procesamiento en tareas simples como la insuficiencia en las complejas.

Dongxu Zhang, Hongqiang Lin, Yiding Sun, Pengyu Wang, Qirui Wang, Ning Yang, Jihua Zhu2026-03-10💬 cs.CL

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Este estudio de 172 mil millones de tokens, que evalúa 35 modelos de lenguaje en diversos contextos, temperaturas y plataformas de hardware, revela que la alucinación en respuestas basadas en documentos es un problema generalizado que aumenta drásticamente con la longitud del contexto, depende principalmente de la selección del modelo más que de su tamaño o del hardware utilizado, y que la capacidad de encontrar hechos no garantiza la resistencia a inventar información.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

El artículo presenta AdaCultureSafe, un marco que integra conocimientos culturales autorizados en modelos de lenguaje grandes para mejorar su seguridad cultural, demostrando mediante un nuevo dataset de 48K consultas que la seguridad y el conocimiento cultural no están correlacionados actualmente y proponiendo un método basado en el conocimiento para resolver esta desconexión.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artículo evalúa la capacidad de los modelos de lenguaje grandes para revisar propuestas de subvenciones mediante perturbaciones estructuradas, concluyendo que un enfoque de análisis por secciones supera a otros métodos pero que los sistemas actuales presentan variabilidad y priorizan la verificación de cumplimiento sobre la evaluación holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

El artículo presenta SBARThez, un marco innovador que combina incrustaciones de oraciones multimodales y multilingües con un mecanismo de inyección de entidades nombradas en un modelo BART modificado para generar resúmenes abstractos más precisos, concisos y factualmente consistentes en múltiples idiomas y formatos de entrada.

Chaimae Chellaf, Salima Mdhaffar, Yannick Estève, Stéphane Huet2026-03-10💬 cs.CL

LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs

Este artículo presenta LAMUS, un corpus a gran escala para la minería de argumentos legales en jurisprudencia de EE. UU. (Suprema Corte y apelaciones penales de Texas), construido mediante un pipeline centrado en datos que combina la recolección masiva, la anotación automática con LLMs y la refinación humana, demostrando que el prompting de cadena de pensamiento y la verificación asistida por LLMs mejoran significativamente la calidad y consistencia de las anotaciones.

Serene Wang, Lavanya Pobbathi, Haihua Chen2026-03-10💬 cs.CL

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

El artículo presenta SlowBA, un ataque de puerta trasera novedoso que compromete la eficiencia de los agentes de interfaz gráfica basados en modelos de lenguaje y visión al inducir cadenas de razonamiento excesivamente largas mediante patrones de activación específicos, aumentando significativamente la latencia de respuesta sin sacrificar la precisión de la tarea.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

SPD-RAG es un marco jerárquico de agentes múltiples que mejora la calidad y la escalabilidad en la respuesta a preguntas complejas sobre múltiples documentos al asignar un agente dedicado a cada documento para la recuperación enfocada y sintetizar sus respuestas parciales mediante un coordinador, superando así a los métodos RAG estándar y de agentes individuales en el benchmark LOONG con un coste de API significativamente menor.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL