cs.CL artículos | Gist.Science

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

COLD-Steer es un marco sin entrenamiento que controla el comportamiento de los modelos de lenguaje grandes en tiempo de inferencia mediante la aproximación de las dinámicas de aprendizaje de un solo paso en contexto, logrando una alta efectividad de dirección con 50 veces menos ejemplos que los métodos anteriores.

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

El artículo presenta BRTR, un marco de agentes multimodales que supera las limitaciones de los métodos actuales mediante un ciclo iterativo de recuperación y razonamiento para lograr un análisis y edición de hojas de cálculo empresariales complejas con un rendimiento superior y total auditabilidad.

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Este artículo presenta un marco de reconocimiento automático del habla multilingüe que utiliza aprendizaje contrastivo para alinear las representaciones del habla y el contexto, logrando mejoras significativas en la calidad de la transcripción en más de 1.500 horas de conversaciones reales en 11 idiomas y 5 dialectos.

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

El artículo presenta la participación del equipo KCLarity en SemEval-2026, donde comparan enfoques de codificadores y modelos de lenguaje generativos en configuración zero-shot para la detección de evasión política, encontrando que RoBERTa-large y GPT-5.2 obtienen los mejores resultados en los conjuntos de prueba público y oculto, respectivamente.

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

Este trabajo presenta EHRSQL, un nuevo conjunto de datos y punto de referencia práctico para la conversión de texto a SQL en registros de salud electrónicos, creado a partir de consultas reales de personal hospitalario y diseñado para abordar desafíos específicos como la complejidad de las operaciones, la comprensión de expresiones temporales y la identificación de preguntas no respondibles.

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Large Language Models are Contrastive Reasoners

El artículo demuestra que el "Contrastive Prompting", una técnica que solicita a los modelos de lenguaje grande generar simultáneamente una respuesta correcta y una incorrecta, mejora drásticamente su rendimiento en tareas de razonamiento complejo sin necesidad de ejemplos de entrenamiento.

Liang Yao2026-03-06💻 cs

INMS: Memory Sharing for Large Language Model based Agents

El marco INMS propone un paradigma de interacción asíncrona para sistemas multiagente que, mediante un pool de memoria conversacional compartida y dinámica, supera las limitaciones de los agentes LLM aislados y mejora su rendimiento mediante el intercambio continuo de conocimiento.

Hang Gao, Yongfeng Zhang2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

El artículo presenta EasyAnimate, un marco de generación de video de alto rendimiento que utiliza atención híbrida en ventanas y retropropagación de recompensas para lograr una velocidad de inferencia superior y una calidad de video de vanguardia, superando a los modelos existentes en eficiencia y resultados evaluados por humanos.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Este artículo presenta y demuestra la complejidad NP-completa del problema de recuperación de vectores con similitud y diversidad (VRSD), proponiendo un algoritmo heurístico sin parámetros que supera a métodos establecidos como MMR y k-DPP en tareas de preguntas y respuestas científicas.

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

Este estudio demuestra que el modelo de lenguaje grande con generación aumentada por recuperación (RAG) NotebookLM supera a su modelo interno, Gemini 2.0 Flash, en la estadificación del cáncer de páncreas al lograr mayor precisión clínica y ofrecer transparencia mediante la presentación de fuentes de conocimiento externas.

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Este artículo presenta un marco de generación aumentada por lógica (LAG) que combina grafos de conocimiento semántico y heurísticas de prompts para mejorar el razonamiento analógico multimodal y la detección de metáforas, superando a los métodos actuales y ofreciendo procesos de razonamiento más explicables, aunque con limitaciones en metáforas específicas de dominio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

Este trabajo presenta una herramienta semi-automática basada en LLMs y grafos de conocimiento para cuantificar la precisión científica de noticias sobre cambio climático, la cual, aunque validada por expertos y usuarios, revela limitaciones actuales en la escala de procesamiento y la insuficiencia de los grafos de conocimiento existentes que requieren mejoras hacia estándares FAIR para apoyar eficazmente el discurso cívico.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

El artículo presenta MiCo, un marco jerárquico basado en agentes de lenguaje que utiliza modelos de lenguaje grandes para diseñar heurísticas dinámicas y generalizables, logrando un alto rendimiento en la programación de máquinas virtuales a gran escala en entornos de computación en la nube.

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Este artículo presenta CausalPitfalls, un nuevo benchmark diseñado para evaluar rigurosamente la capacidad de los modelos de lenguaje grandes para identificar y superar trampas estadísticas en la inferencia causal, revelando así sus limitaciones actuales y proporcionando métricas para desarrollar sistemas de razonamiento más confiables.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

El artículo presenta ShIOEnv, un entorno de shell Bash compatible con Gymnasium que utiliza síntesis restringida por gramática y una señal de irreducibilidad auto-supervisada para generar 2,1 millones de pares entrada-salida que mejoran la precisión de los modelos al predecir el comportamiento de ejecución de comandos en comparación con enfoques anteriores sin ejecución.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

El artículo presenta SealQA, un nuevo conjunto de datos de evaluación diseñado para medir la capacidad de razonamiento y precisión factual de los modelos de lenguaje aumentados con búsqueda en escenarios con información conflictiva o ruidosa, revelando que incluso los modelos más avanzados actuales tienen un rendimiento muy deficiente en estas tareas.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

El artículo presenta LUCIFER, un middleware de inferencia que utiliza un contrato de señales para convertir actualizaciones lingüísticas en tiempo real en directrices de control agnósticas al lenguaje, mejorando así la seguridad y la eficiencia en la toma de decisiones de sistemas autónomos sin acoplar el entendimiento del lenguaje a los planificadores.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

El artículo presenta EDINET-Bench, un nuevo benchmark de código abierto basado en informes financieros japoneses que revela que, a pesar de sus avances en otros campos, los modelos de lenguaje actuales apenas superan a métodos estadísticos simples en tareas financieras complejas, lo que subraya la necesidad de marcos de evaluación más sofisticados que simulen el entorno profesional real.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este estudio demuestra que, desde una perspectiva de datos, el Ajuste Fino por Refuerzo (RFT) preserva mejor el conocimiento previo de los modelos de lenguaje multimodal que el Ajuste Fino Supervisado (SFT) al alinear las actualizaciones con la distribución de probabilidad base, mitigando así el olvido catastrófico mediante dinámicas de aprendizaje menos intrusivas.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

El artículo presenta "La Leaderboard", la primera plataforma de código abierto impulsada por la comunidad que evalúa modelos de lenguaje grandes en diversas variedades del español y lenguas de España y Latinoamérica, estableciendo un estándar de evaluación inclusivo y sostenible.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

← Anterior Siguiente →