cs.AI artículos | Gist.Science

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

MediTools -- Medical Education Powered by LLMs

El proyecto MediTools presenta una aplicación prototipo que utiliza modelos de lenguaje grandes (LLM) para revolucionar la educación médica mediante herramientas interactivas de simulación clínica, análisis de literatura y resúmenes de noticias, validando su potencial a través de una encuesta con profesionales y estudiantes.

Amr Alshatnawi, Remi Sampaleanu, David Liebovitz2026-03-10💻 cs

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Este estudio mejora la predicción del síndrome metabólico mediante un marco híbrido innovador llamado MetaBoost que optimiza el equilibrio de datos y un análisis contrafactual que identifica la glucosa y los triglicéridos como los factores modificables más críticos para reducir el riesgo.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Este artículo presenta una revisión exhaustiva que unifica la evaluación de modelos de lenguaje y agentes autónomos mediante una taxonomía de aproximadamente 60 benchmarks, analiza marcos de trabajo y protocolos de colaboración, y explora aplicaciones reales junto con recomendaciones para futuras investigaciones en razonamiento avanzado y seguridad.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

El artículo presenta SFIBA, un ataque de puerta trasera invisible basado en el espacio que garantiza la especificidad y el sigilo en escenarios de caja negra mediante la restricción de los desencadenantes a regiones espaciales locales y su inyección en el dominio de la frecuencia, logrando así un alto rendimiento de ataque multiobjetivo sin comprometer la detección o el rendimiento del modelo.

Yangxu Yin, Honglong Chen, Yudong Gao, Peng Sun, Zhishuai Li, Weifeng Liu2026-03-10💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

Precision Proactivity: Measuring Cognitive Load in Real-World AI-Assisted Work

Este estudio demuestra que, aunque el contenido generado por IA mejora la calidad del trabajo, la carga cognitiva extrínseca —particularmente la provocada por cambios de tarea iniciados por el modelo— tiene un impacto negativo tres veces mayor que la carga intrínseca, penalizando desproporcionadamente a los profesionales menos experimentados.

Brandon Lepine, Juho Kim, Pamela Mishkin, Matthew Beane2026-03-10💻 cs

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

El artículo presenta Ready2Unlearn, un enfoque de optimización durante el entrenamiento que prepara proactivamente a los modelos de aprendizaje automático para futuras solicitudes de olvido mediante principios de meta-aprendizaje, mejorando así la eficiencia y la integridad del proceso de eliminación de datos.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

El artículo presenta FreeKV, un marco de co-optimización sin entrenamiento que combina técnicas de recuperación especulativa y corrección de granularidad fina con una arquitectura de sistema híbrida en CPU/GPU para lograr una aceleración de hasta 13 veces en la inferencia de LLMs manteniendo una precisión casi sin pérdidas.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Este artículo presenta un enfoque neuro-simbólico que combina la recuperación de problemas análogos y la verificación formal para mejorar significativamente la precisión en la generación de pruebas de geometría euclidiana por parte de modelos de lenguaje grandes, superando sus limitaciones en el razonamiento lógico riguroso.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

El documento presenta MAS-ZERO, un marco de diseño de sistemas multiagente autoevolutivo que, sin supervisión ni conjunto de validación, optimiza dinámicamente la descomposición de problemas y la composición de agentes en tiempo de inferencia, superando significativamente a los enfoques manuales y automáticos existentes en tareas de razonamiento, codificación y búsqueda.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Este artículo presenta AgarCL, una plataforma de investigación basada en el juego Agar.io diseñada para el aprendizaje por refuerzo continuo que, a través de sus dinámicas no episódicas y complejas, revela que los métodos actuales de aprendizaje continuo apenas superan a los algoritmos estándar, indicando que los desafíos van más allá del dilema de estabilidad-plasticidad.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

Maximum Principle of Optimal Probability Density Control

Este artículo presenta un marco teórico general que establece un principio de máximo y una ecuación de Hamilton-Jacobi-Bellman para el control óptimo de densidades de probabilidad en espacios de dimensión infinita, junto con un algoritmo numérico escalable basado en redes neuronales profundas para resolver problemas de control multiagente a gran escala.

Nathan Gaby, Xiaojing Ye2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Este artículo presenta un nuevo enfoque que mejora la seguridad de los modelos de lenguaje frente a inyecciones de instrucciones al inyectar señales de jerarquía de instrucciones en las representaciones intermedias de la red mediante embebidos entrenables, logrando una reducción significativa en la tasa de éxito de los ataques sin comprometer la utilidad del modelo.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

El artículo presenta OCN, un nuevo enfoque de predicción de enlaces que utiliza la ortogonalización y la normalización para eliminar la redundancia y el sobre-alisado en los vecinos comunes de alto orden, logrando un rendimiento superior al de los métodos existentes en diversos benchmarks.

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Este trabajo propone una nueva representación de entornos proteicos locales derivada de modelos fundamentales atómicos que captura eficazmente tanto la estructura como las características químicas, permitiendo la construcción de predictores de desplazamiento químico con precisión de vanguardia y abriendo nuevas vías para el modelado de proteínas.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Este trabajo presenta MMTU, un nuevo benchmark a gran escala con más de 28.000 preguntas sobre 25 tareas de tablas del mundo real diseñado para evaluar exhaustivamente las capacidades de comprensión, razonamiento y manipulación de datos estructurados en modelos de lenguaje, revelando que incluso los modelos más avanzados actuales tienen un margen significativo de mejora.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Este artículo presenta BemaGANv2, un vocador basado en GAN optimizado para la generación de audio de larga duración que introduce innovaciones arquitectónicas como el módulo AMP y el Discriminador de Sobres Multi-Envolvente (MED), evaluando sistemáticamente diversas estrategias de combinación de discriminadores para mejorar la coherencia temporal y la fidelidad del audio.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

El artículo presenta Co-LoRA, un enfoque de aprendizaje federado personalizado que aborda la heterogeneidad tanto de datos como de modelos mediante una estrategia de agregación consciente de la relevancia de la tarea y un módulo adaptable a diferentes arquitecturas, validado en un nuevo benchmark multimodal que demuestra un rendimiento superior al estado del arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

El marco ContextMatters mejora la planificación de agentes encarnados en entornos 3D complejos al fusionar modelos de lenguaje grandes con planificación clásica para relajar jerárquicamente los objetivos y adaptar las metas al contexto, logrando una tasa de éxito un 52,45% superior a las soluciones existentes y validándose en un robot real.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

← Anterior Siguiente →