How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Este estudio de 172 mil millones de tokens, que evalúa 35 modelos de lenguaje en diversos contextos, temperaturas y plataformas de hardware, revela que la alucinación en respuestas basadas en documentos es un problema generalizado que aumenta drásticamente con la longitud del contexto, depende principalmente de la selección del modelo más que de su tamaño o del hardware utilizado, y que la capacidad de encontrar hechos no garantiza la resistencia a inventar información.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

El artículo presenta AdaCultureSafe, un marco que integra conocimientos culturales autorizados en modelos de lenguaje grandes para mejorar su seguridad cultural, demostrando mediante un nuevo dataset de 48K consultas que la seguridad y el conocimiento cultural no están correlacionados actualmente y proponiendo un método basado en el conocimiento para resolver esta desconexión.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

El artículo presenta TA-RNN-Medical-Hybrid, un marco de aprendizaje profundo que combina codificación temporal continua, representaciones de conceptos médicos estandarizados y un mecanismo de atención jerárquica para mejorar la precisión y la interpretabilidad clínica en la predicción de riesgo de mortalidad en unidades de cuidados intensivos.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artículo evalúa la capacidad de los modelos de lenguaje grandes para revisar propuestas de subvenciones mediante perturbaciones estructuradas, concluyendo que un enfoque de análisis por secciones supera a otros métodos pero que los sistemas actuales presentan variabilidad y priorizan la verificación de cumplimiento sobre la evaluación holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Este artículo presenta BladeChain, un sistema basado en blockchain que garantiza la trazabilidad inmutable y auditable de las inspecciones de álabes de motores de avión mediante la integración de la gestión de múltiples partes interesadas, la programación automatizada y el rastreo de la procedencia de los modelos de inteligencia artificial.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

El estudio revela que, a diferencia de la Descendente de Gradiente, la Minimización Sensible a la Agudeza (SAM) en redes lineales profundas presenta un sesgo implícito dependiente de la profundidad y la inicialización que puede llevar a la convergencia a soluciones subóptimas o a una dinámica de "amplificación secuencial" de características menores, demostrando que los análisis de sesgo en tiempo infinito son insuficientes para predecir su comportamiento en tiempo finito.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Este artículo presenta una revisión sistemática del razonamiento matemático multimodal que identifica sus limitaciones actuales, propone un paradigma unificado basado en percepción, alineación y razonamiento verificable, y establece una hoja de ruta estructurada en torno a cuatro preguntas fundamentales para guiar futuras investigaciones.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Este trabajo propone un marco novedoso basado en Redes Neuronales Instructadas por Grafos (GINNs) para simular de manera eficiente y precisa fenómenos físicos gobernados por ecuaciones diferenciales parciales paramétricas con condiciones de frontera variables, superando las limitaciones de las técnicas de reducción de orden clásicas al aprender directamente la mapeo entre la descripción paramétrica del dominio y la solución de la PDE.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Este estudio compara el rendimiento de humanos y modelos de IA en el reconocimiento de acciones egocéntricas utilizando recortes mínimos identificables (MIRCs) y revela que, mientras los humanos dependen de señales semánticas críticas como las interacciones mano-objeto, los modelos de IA muestran una degradación más gradual basada en características contextuales y de bajo nivel, lo que explica la brecha de rendimiento en condiciones desafiantes.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

El artículo presenta CORE-Acu, un marco neuro-simbólico para el soporte de decisiones clínicas en acupuntura que integra trazas de razonamiento estructurado y verificación de seguridad mediante grafos de conocimiento para garantizar la interpretabilidad y eliminar las violaciones de seguridad en la generación de tratamientos.

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

Este artículo presenta un estudio de caso sobre la colaboración neurosimbólica entre una IA, herramientas de cómputo simbólico y humanos que logró descubrir y verificar formalmente en Lean 4 un nuevo límite inferior ajustado para el desequilibrio de cuadrados latinos en el caso n1(mod3)n \equiv 1 \pmod{3}, demostrando la capacidad de estos sistemas para realizar descubrimientos genuinos en matemáticas puras.

Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider2026-03-10🔢 math

EndoSERV: A Vision-based Endoluminal Robot Navigation System

El artículo presenta EndoSERV, un sistema de navegación robótica endoluminal basado en visión que supera los desafíos de localización en anatomías complejas mediante un enfoque de segmentación-estructura y mapeo real-virtual, utilizando aprendizaje por transferencia y entrenamiento en dos fases para lograr una precisión robusta sin necesidad de etiquetas de pose reales.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

SPD-RAG es un marco jerárquico de agentes múltiples que mejora la calidad y la escalabilidad en la respuesta a preguntas complejas sobre múltiples documentos al asignar un agente dedicado a cada documento para la recuperación enfocada y sintetizar sus respuestas parciales mediante un coordinador, superando así a los métodos RAG estándar y de agentes individuales en el benchmark LOONG con un coste de API significativamente menor.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

Este artículo propone DS-DGA-GCN, un modelo de aprendizaje gráfico adaptativo que combina un sistema de puntuación de características de red y un mecanismo de atención dinámica para detectar eficazmente grupos de reseñas falsas en escenarios de datos escasos, superando a los métodos existentes en conjuntos de datos reales de Amazon y Xiaohongshu.

Jing Zhang, Ke Huang, Yao Zhang, Bin Guo, Zhiwen Yu2026-03-10💻 cs

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

Este trabajo demuestra que el uso de características derivadas del operador de Koopman mediante una descomposición dinámica de modos extendida (EDMD) con un diccionario de funciones de base radial optimizado, combinadas con transformadores, supera a los enfoques basados en wavelets y sistemas híbridos para la clasificación multiclase de electrocardiogramas, ofreciendo además insights interpretables sobre las dinámicas aprendidas.

Sucheta Ghosh, Zahra Monfared2026-03-10🤖 cs.LG

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Este capítulo revisa cómo los modelos computacionales de aprendizaje auto-supervisado y visualmente fundamentado permiten explicar la adquisición temprana del lenguaje a partir de señales acústicas y audiovisuales sin recurrir a prios lingüísticos, demostrando que principios de aprendizaje compartidos pueden replicar tanto el comportamiento de los modelos como los hallazgos empíricos sobre el desarrollo infantil.

Okko Räsänen2026-03-10💬 cs.CL