EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

Este trabajo presenta EHRSQL, un nuevo conjunto de datos y punto de referencia práctico para la conversión de texto a SQL en registros de salud electrónicos, creado a partir de consultas reales de personal hospitalario y diseñado para abordar desafíos específicos como la complejidad de las operaciones, la comprensión de expresiones temporales y la identificación de preguntas no respondibles.

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

El artículo presenta EasyAnimate, un marco de generación de video de alto rendimiento que utiliza atención híbrida en ventanas y retropropagación de recompensas para lograr una velocidad de inferencia superior y una calidad de video de vanguardia, superando a los modelos existentes en eficiencia y resultados evaluados por humanos.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

Este estudio demuestra que el modelo de lenguaje grande con generación aumentada por recuperación (RAG) NotebookLM supera a su modelo interno, Gemini 2.0 Flash, en la estadificación del cáncer de páncreas al lograr mayor precisión clínica y ofrecer transparencia mediante la presentación de fuentes de conocimiento externas.

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Este artículo presenta un marco de generación aumentada por lógica (LAG) que combina grafos de conocimiento semántico y heurísticas de prompts para mejorar el razonamiento analógico multimodal y la detección de metáforas, superando a los métodos actuales y ofreciendo procesos de razonamiento más explicables, aunque con limitaciones en metáforas específicas de dominio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

Este trabajo presenta una herramienta semi-automática basada en LLMs y grafos de conocimiento para cuantificar la precisión científica de noticias sobre cambio climático, la cual, aunque validada por expertos y usuarios, revela limitaciones actuales en la escala de procesamiento y la insuficiencia de los grafos de conocimiento existentes que requieren mejoras hacia estándares FAIR para apoyar eficazmente el discurso cívico.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

El artículo presenta ShIOEnv, un entorno de shell Bash compatible con Gymnasium que utiliza síntesis restringida por gramática y una señal de irreducibilidad auto-supervisada para generar 2,1 millones de pares entrada-salida que mejoran la precisión de los modelos al predecir el comportamiento de ejecución de comandos en comparación con enfoques anteriores sin ejecución.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

El artículo presenta SealQA, un nuevo conjunto de datos de evaluación diseñado para medir la capacidad de razonamiento y precisión factual de los modelos de lenguaje aumentados con búsqueda en escenarios con información conflictiva o ruidosa, revelando que incluso los modelos más avanzados actuales tienen un rendimiento muy deficiente en estas tareas.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

El artículo presenta LUCIFER, un middleware de inferencia que utiliza un contrato de señales para convertir actualizaciones lingüísticas en tiempo real en directrices de control agnósticas al lenguaje, mejorando así la seguridad y la eficiencia en la toma de decisiones de sistemas autónomos sin acoplar el entendimiento del lenguaje a los planificadores.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

El artículo presenta EDINET-Bench, un nuevo benchmark de código abierto basado en informes financieros japoneses que revela que, a pesar de sus avances en otros campos, los modelos de lenguaje actuales apenas superan a métodos estadísticos simples en tareas financieras complejas, lo que subraya la necesidad de marcos de evaluación más sofisticados que simulen el entorno profesional real.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este estudio demuestra que, desde una perspectiva de datos, el Ajuste Fino por Refuerzo (RFT) preserva mejor el conocimiento previo de los modelos de lenguaje multimodal que el Ajuste Fino Supervisado (SFT) al alinear las actualizaciones con la distribución de probabilidad base, mitigando así el olvido catastrófico mediante dinámicas de aprendizaje menos intrusivas.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs