cs.AI artículos | Gist.Science

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Este artículo realiza un análisis mecanicista que demuestra cómo la competencia inherente entre la tendencia del modelo a continuar el texto y sus defensas de seguridad, activada por instrucciones de continuación, explica la vulnerabilidad a ataques de jailbreak y revela diferencias funcionales en las cabezas de atención críticas para la seguridad entre distintas arquitecturas de modelos.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudio evalúa métodos de aprendizaje profundo, incluyendo redes neuronales convolucionales, transformadores de visión y modelos fundacionales, aplicados a imágenes ultra granulares para la detección de retinopatía diabética y edema macular diabético, demostrando un rendimiento sólido y la eficacia de la fusión de características y las representaciones en el dominio de la frecuencia.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Fibration Policy Optimization

El artículo presenta Fibration Policy Optimization (FiberPO), un marco unificado que integra la teoría de regiones de confianza y una estructura algebraica de fibración para optimizar políticas de modelos de lenguaje mediante un control de estabilidad jerárquico y multi-escala que abarca desde el nivel de tokens hasta dominios completos.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

El artículo presenta FinToolBench, el primer benchmark ejecutable del mundo real diseñado para evaluar agentes de IA en el uso de herramientas financieras, introduciendo un ecosistema con 760 herramientas y un marco de evaluación que prioriza la precisión, la oportunidad y el cumplimiento normativo.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Towards a more efficient bias detection in financial language models

Este estudio propone un método de detección de sesgos en modelos de lenguaje financieros que reduce significativamente los costos computacionales al identificar patrones consistentes entre modelos, permitiendo descubrir hasta un 73% de los comportamientos sesgados utilizando solo el 20% de los pares de entrada necesarios en enfoques tradicionales.

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

El paper presenta SAIL, un marco que mejora el aprendizaje por imitación en contexto para robots mediante la redefinición de la generación de trayectorias como un problema de refinamiento iterativo escalable en tiempo de prueba utilizando búsqueda en árbol Monte Carlo, lo que permite alcanzar tasas de éxito de hasta el 95% en tareas complejas.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

El artículo presenta SCL-GNN, un nuevo marco de redes neuronales de grafos que mejora la generalización tanto en distribuciones IID como OOD al identificar y mitigar correlaciones espurias mediante el criterio de independencia Hilbert-Schmidt (HSIC) y una estrategia de optimización bi-nivel.

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Este estudio de 172 mil millones de tokens, que evalúa 35 modelos de lenguaje en diversos contextos, temperaturas y plataformas de hardware, revela que la alucinación en respuestas basadas en documentos es un problema generalizado que aumenta drásticamente con la longitud del contexto, depende principalmente de la selección del modelo más que de su tamaño o del hardware utilizado, y que la capacidad de encontrar hechos no garantiza la resistencia a inventar información.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

El artículo presenta AdaCultureSafe, un marco que integra conocimientos culturales autorizados en modelos de lenguaje grandes para mejorar su seguridad cultural, demostrando mediante un nuevo dataset de 48K consultas que la seguridad y el conocimiento cultural no están correlacionados actualmente y proponiendo un método basado en el conocimiento para resolver esta desconexión.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

El artículo presenta TA-RNN-Medical-Hybrid, un marco de aprendizaje profundo que combina codificación temporal continua, representaciones de conceptos médicos estandarizados y un mecanismo de atención jerárquica para mejorar la precisión y la interpretabilidad clínica en la predicción de riesgo de mortalidad en unidades de cuidados intensivos.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artículo evalúa la capacidad de los modelos de lenguaje grandes para revisar propuestas de subvenciones mediante perturbaciones estructuradas, concluyendo que un enfoque de análisis por secciones supera a otros métodos pero que los sistemas actuales presentan variabilidad y priorizan la verificación de cumplimiento sobre la evaluación holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Este artículo presenta BladeChain, un sistema basado en blockchain que garantiza la trazabilidad inmutable y auditable de las inspecciones de álabes de motores de avión mediante la integración de la gestión de múltiples partes interesadas, la programación automatizada y el rastreo de la procedencia de los modelos de inteligencia artificial.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

El estudio revela que, a diferencia de la Descendente de Gradiente, la Minimización Sensible a la Agudeza (SAM) en redes lineales profundas presenta un sesgo implícito dependiente de la profundidad y la inicialización que puede llevar a la convergencia a soluciones subóptimas o a una dinámica de "amplificación secuencial" de características menores, demostrando que los análisis de sesgo en tiempo infinito son insuficientes para predecir su comportamiento en tiempo finito.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Este artículo presenta una revisión sistemática del razonamiento matemático multimodal que identifica sus limitaciones actuales, propone un paradigma unificado basado en percepción, alineación y razonamiento verificable, y establece una hoja de ruta estructurada en torno a cuatro preguntas fundamentales para guiar futuras investigaciones.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Este trabajo propone un marco novedoso basado en Redes Neuronales Instructadas por Grafos (GINNs) para simular de manera eficiente y precisa fenómenos físicos gobernados por ecuaciones diferenciales parciales paramétricas con condiciones de frontera variables, superando las limitaciones de las técnicas de reducción de orden clásicas al aprender directamente la mapeo entre la descripción paramétrica del dominio y la solución de la PDE.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Este trabajo propone un método de generación de imágenes CT a partir de texto que mejora la fidelidad y la consistencia anatómica al recuperar casos clínicos relevantes mediante un codificador visión-lingüístico 3D para utilizar sus anotaciones como guía estructural en un modelo de difusión latente.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Este trabajo presenta un marco de ajuste fino que mejora la robustez de los Transformadores de Visión (ViTs) ante cambios de distribución al alinear sus mapas de relevancia con conceptos semánticos de nivel de objeto generados automáticamente mediante LLMs y VLMs, reduciendo así la dependencia de correlaciones espurias.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Este estudio compara el rendimiento de humanos y modelos de IA en el reconocimiento de acciones egocéntricas utilizando recortes mínimos identificables (MIRCs) y revela que, mientras los humanos dependen de señales semánticas críticas como las interacciones mano-objeto, los modelos de IA muestran una degradación más gradual basada en características contextuales y de bajo nivel, lo que explica la brecha de rendimiento en condiciones desafiantes.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

El artículo presenta CORE-Acu, un marco neuro-simbólico para el soporte de decisiones clínicas en acupuntura que integra trazas de razonamiento estructurado y verificación de seguridad mediante grafos de conocimiento para garantizar la interpretabilidad y eliminar las violaciones de seguridad en la generación de tratamientos.

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

← Anterior Siguiente →