Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Este artículo realiza un análisis mecanicista que demuestra cómo la competencia inherente entre la tendencia del modelo a continuar el texto y sus defensas de seguridad, activada por instrucciones de continuación, explica la vulnerabilidad a ataques de jailbreak y revela diferencias funcionales en las cabezas de atención críticas para la seguridad entre distintas arquitecturas de modelos.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudio evalúa métodos de aprendizaje profundo, incluyendo redes neuronales convolucionales, transformadores de visión y modelos fundacionales, aplicados a imágenes ultra granulares para la detección de retinopatía diabética y edema macular diabético, demostrando un rendimiento sólido y la eficacia de la fusión de características y las representaciones en el dominio de la frecuencia.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

El artículo presenta FinToolBench, el primer benchmark ejecutable del mundo real diseñado para evaluar agentes de IA en el uso de herramientas financieras, introduciendo un ecosistema con 760 herramientas y un marco de evaluación que prioriza la precisión, la oportunidad y el cumplimiento normativo.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Este estudio de 172 mil millones de tokens, que evalúa 35 modelos de lenguaje en diversos contextos, temperaturas y plataformas de hardware, revela que la alucinación en respuestas basadas en documentos es un problema generalizado que aumenta drásticamente con la longitud del contexto, depende principalmente de la selección del modelo más que de su tamaño o del hardware utilizado, y que la capacidad de encontrar hechos no garantiza la resistencia a inventar información.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

El artículo presenta AdaCultureSafe, un marco que integra conocimientos culturales autorizados en modelos de lenguaje grandes para mejorar su seguridad cultural, demostrando mediante un nuevo dataset de 48K consultas que la seguridad y el conocimiento cultural no están correlacionados actualmente y proponiendo un método basado en el conocimiento para resolver esta desconexión.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

El artículo presenta TA-RNN-Medical-Hybrid, un marco de aprendizaje profundo que combina codificación temporal continua, representaciones de conceptos médicos estandarizados y un mecanismo de atención jerárquica para mejorar la precisión y la interpretabilidad clínica en la predicción de riesgo de mortalidad en unidades de cuidados intensivos.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artículo evalúa la capacidad de los modelos de lenguaje grandes para revisar propuestas de subvenciones mediante perturbaciones estructuradas, concluyendo que un enfoque de análisis por secciones supera a otros métodos pero que los sistemas actuales presentan variabilidad y priorizan la verificación de cumplimiento sobre la evaluación holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Este artículo presenta BladeChain, un sistema basado en blockchain que garantiza la trazabilidad inmutable y auditable de las inspecciones de álabes de motores de avión mediante la integración de la gestión de múltiples partes interesadas, la programación automatizada y el rastreo de la procedencia de los modelos de inteligencia artificial.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

El estudio revela que, a diferencia de la Descendente de Gradiente, la Minimización Sensible a la Agudeza (SAM) en redes lineales profundas presenta un sesgo implícito dependiente de la profundidad y la inicialización que puede llevar a la convergencia a soluciones subóptimas o a una dinámica de "amplificación secuencial" de características menores, demostrando que los análisis de sesgo en tiempo infinito son insuficientes para predecir su comportamiento en tiempo finito.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Este artículo presenta una revisión sistemática del razonamiento matemático multimodal que identifica sus limitaciones actuales, propone un paradigma unificado basado en percepción, alineación y razonamiento verificable, y establece una hoja de ruta estructurada en torno a cuatro preguntas fundamentales para guiar futuras investigaciones.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Este trabajo propone un marco novedoso basado en Redes Neuronales Instructadas por Grafos (GINNs) para simular de manera eficiente y precisa fenómenos físicos gobernados por ecuaciones diferenciales parciales paramétricas con condiciones de frontera variables, superando las limitaciones de las técnicas de reducción de orden clásicas al aprender directamente la mapeo entre la descripción paramétrica del dominio y la solución de la PDE.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Este estudio compara el rendimiento de humanos y modelos de IA en el reconocimiento de acciones egocéntricas utilizando recortes mínimos identificables (MIRCs) y revela que, mientras los humanos dependen de señales semánticas críticas como las interacciones mano-objeto, los modelos de IA muestran una degradación más gradual basada en características contextuales y de bajo nivel, lo que explica la brecha de rendimiento en condiciones desafiantes.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

El artículo presenta CORE-Acu, un marco neuro-simbólico para el soporte de decisiones clínicas en acupuntura que integra trazas de razonamiento estructurado y verificación de seguridad mediante grafos de conocimiento para garantizar la interpretabilidad y eliminar las violaciones de seguridad en la generación de tratamientos.

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs