cs.LG artículos | Gist.Science

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

El artículo presenta LOOP, un nuevo método de aprendizaje por refuerzo para el ajuste fino de modelos de difusión texto-a-imagen que combina técnicas de reducción de varianza de REINFORCE con la robustez de PPO para lograr un mejor equilibrio entre eficiencia de muestreo y rendimiento final.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

El artículo presenta OrthoGrad, un método novedoso para el olvido de datos que proyecta los gradientes de los datos a eliminar en un subespacio ortogonal a los de un conjunto de retención reducido, logrando así eliminar conceptos específicos sin comprometer el rendimiento del modelo cuando no se dispone del conjunto de entrenamiento completo.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Este estudio presenta GlucoLens, un sistema de aprendizaje automático explicable que utiliza datos de wearables y dietas para predecir la hiperglucemia postprandial y descubrir vías de tratamiento conductual mediante explicaciones contrafactuales, logrando un rendimiento superior al de los modelos comparativos en un ensayo clínico.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

El artículo presenta IMPACT, un marco de planificación de movimiento que utiliza Modelos Visuales-Lingüísticos para inferir la semántica del entorno y generar mapas de costos anisotrópicos, permitiendo a los robots encontrar trayectorias estables y seguras que incluyen contactos aceptables en entornos desordenados.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

El artículo presenta las equivalencias de prototipos suaves (SPE), un marco basado en redes neuronales invertibles que caracteriza el comportamiento a largo plazo de sistemas dinámicos no lineales a partir de observaciones escasas y ruidosas, permitiendo identificar estructuras invariantes y clasificar regímenes dinámicos sin necesidad de ecuaciones explícitas.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

El artículo presenta MUSS, un método novedoso de selección de subconjuntos multinivel que mejora significativamente la escalabilidad y el rendimiento en la selección de elementos relevantes y diversos para aplicaciones como sistemas de recomendación y RAG, ofreciendo una aproximación de factor constante al óptimo y superando a enfoques anteriores en precisión y velocidad.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Este estudio mejora la predicción del síndrome metabólico mediante un marco híbrido innovador llamado MetaBoost que optimiza el equilibrio de datos y un análisis contrafactual que identifica la glucosa y los triglicéridos como los factores modificables más críticos para reducir el riesgo.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

La investigación demuestra que, aunque los Modelos de Lenguaje Grande (LLM) pueden estimar la dificultad de ítems educativos, la estrategia que combina la extracción de características lingüísticas y cognitivas por parte del LLM con algoritmos de aprendizaje automático basados en árboles (como bosques aleatorios) supera significativamente a la estimación directa, ofreciendo una alternativa precisa y escalable para reducir la dependencia de costosas pruebas de campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Este trabajo presenta el primer agente de aprendizaje por refuerzo basado en visión que alcanza un nivel de campeón en Gran Turismo 7, utilizando únicamente datos de sensores a bordo y vistas de cámara para superar a los conductores integrados sin depender de localización global durante la inferencia.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Este artículo presenta un marco de respuesta lineal para la interpretabilidad que trata las redes neuronales como sistemas bayesianos de mecánica estadística, permitiendo identificar módulos funcionales en transformadores pequeños mediante el análisis de susceptibilidades derivadas de perturbaciones en la distribución de datos.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

El artículo presenta HetGL2R, un marco de aprendizaje profundo basado en grafos heterogéneos que integra flujos origen-destino y rutas para mejorar significativamente la clasificación de la importancia de segmentos viales mediante la captura de dependencias espaciales a larga distancia y asociaciones funcionales.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Este artículo presenta una revisión exhaustiva que unifica la evaluación de modelos de lenguaje y agentes autónomos mediante una taxonomía de aproximadamente 60 benchmarks, analiza marcos de trabajo y protocolos de colaboración, y explora aplicaciones reales junto con recomendaciones para futuras investigaciones en razonamiento avanzado y seguridad.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Este artículo presenta StablePCA, un marco de aprendizaje robusto distribucional que extrae representaciones latentes estables de datos multi-fuente mediante la maximización de la varianza explicada en el peor caso, abordando la no convexidad del problema original a través de una relajación convexa resuelta con un algoritmo Mirror-Prox y validada mediante un certificado dependiente de los datos.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Este artículo propone un marco de optimización de políticas offline personalizado para poblaciones heterogéneas, introduciendo el algoritmo P4L que utiliza variables latentes individuales para estimar funciones Q y garantizar un bajo arrepentimiento promedio bajo supuestos de cobertura parcial débiles.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Este estudio utiliza la interpretabilidad mecánica para demostrar que, aunque la destilación de conocimientos preserva el comportamiento funcional, reorganiza y comprime las circuitos internos de los modelos, lo que resulta en una mayor dependencia de componentes individuales y tiene implicaciones significativas para la robustez y la generalización.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

El artículo presenta Ready2Unlearn, un enfoque de optimización durante el entrenamiento que prepara proactivamente a los modelos de aprendizaje automático para futuras solicitudes de olvido mediante principios de meta-aprendizaje, mejorando así la eficiencia y la integridad del proceso de eliminación de datos.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

El artículo presenta EgoDex, el conjunto de datos más grande y diverso hasta la fecha de manipulación hábil humana grabada con visión egocéntrica mediante Apple Vision Pro, que incluye 829 horas de video con anotaciones de pose de manos en 3D para 194 tareas cotidianas, con el objetivo de abordar la escasez de datos en el aprendizaje por imitación y fomentar avances en robótica y visión por computadora.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

El artículo presenta FreeKV, un marco de co-optimización sin entrenamiento que combina técnicas de recuperación especulativa y corrección de granularidad fina con una arquitectura de sistema híbrida en CPU/GPU para lograr una aceleración de hasta 13 veces en la inferencia de LLMs manteniendo una precisión casi sin pérdidas.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Este artículo presenta los primeros algoritmos en línea con garantías teóricas de arrepentimiento para el aprendizaje enfocado en la toma de decisiones (DFL) en entornos dinámicos, superando los desafíos de la falta de gradientes y la no convexidad mediante técnicas de regularización y perturbación.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

← Anterior Siguiente →