Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Este trabajo demuestra que los modelos de diálogo de voz full-duplex de extremo a extremo filtran la identidad del hablante en sus representaciones ocultas y propone dos métodos de anonimización en tiempo real que protegen significativamente la privacidad sin comprometer la latencia ni la calidad del diálogo.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

El artículo presenta TildeOpen LLM, un modelo de lenguaje abierto de 30 mil millones de parámetros entrenado con estrategias de aprendizaje curricular y muestreo de datos para lograr una representación equitativa y un rendimiento superior en 34 idiomas europeos, especialmente en lenguas de recursos limitados como las bálticas, fino-úgricas y eslavas.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

El artículo critica la dependencia actual de métricas de estimación puntual en los benchmarks de regresión para modelos fundacionales tabulares y propone evaluar y optimizar las predicciones probabilísticas mediante reglas de puntuación adecuadas, como el CRPS, junto con estrategias de ajuste fino o prompts para adaptar el sesgo inductivo de estos modelos.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudio presenta dos estrategias de fusión multimodal, RGIF y RGMAF, que combinan el registro de imágenes con mecanismos de atención adaptativa para mejorar significativamente la detección de vehículos aéreos no tripulados (UAV) al integrar datos heterogéneos de sensores térmicos y visuales.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Este artículo realiza un análisis mecanicista que demuestra cómo la competencia inherente entre la tendencia del modelo a continuar el texto y sus defensas de seguridad, activada por instrucciones de continuación, explica la vulnerabilidad a ataques de jailbreak y revela diferencias funcionales en las cabezas de atención críticas para la seguridad entre distintas arquitecturas de modelos.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudio evalúa métodos de aprendizaje profundo, incluyendo redes neuronales convolucionales, transformadores de visión y modelos fundacionales, aplicados a imágenes ultra granulares para la detección de retinopatía diabética y edema macular diabético, demostrando un rendimiento sólido y la eficacia de la fusión de características y las representaciones en el dominio de la frecuencia.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

El artículo presenta FinToolBench, el primer benchmark ejecutable del mundo real diseñado para evaluar agentes de IA en el uso de herramientas financieras, introduciendo un ecosistema con 760 herramientas y un marco de evaluación que prioriza la precisión, la oportunidad y el cumplimiento normativo.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Este estudio de 172 mil millones de tokens, que evalúa 35 modelos de lenguaje en diversos contextos, temperaturas y plataformas de hardware, revela que la alucinación en respuestas basadas en documentos es un problema generalizado que aumenta drásticamente con la longitud del contexto, depende principalmente de la selección del modelo más que de su tamaño o del hardware utilizado, y que la capacidad de encontrar hechos no garantiza la resistencia a inventar información.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

El artículo presenta AdaCultureSafe, un marco que integra conocimientos culturales autorizados en modelos de lenguaje grandes para mejorar su seguridad cultural, demostrando mediante un nuevo dataset de 48K consultas que la seguridad y el conocimiento cultural no están correlacionados actualmente y proponiendo un método basado en el conocimiento para resolver esta desconexión.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

El artículo presenta TA-RNN-Medical-Hybrid, un marco de aprendizaje profundo que combina codificación temporal continua, representaciones de conceptos médicos estandarizados y un mecanismo de atención jerárquica para mejorar la precisión y la interpretabilidad clínica en la predicción de riesgo de mortalidad en unidades de cuidados intensivos.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG