cs.LG artículos | Gist.Science

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

El artículo presenta A3RL, un nuevo método de aprendizaje por refuerzo que combina datos en línea y fuera de línea mediante una estrategia de muestreo activa y consciente de la confianza para mejorar la eficiencia de las muestras y superar el olvido catastrófico, logrando un rendimiento superior frente a técnicas existentes.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

El artículo propone el marco Texts as Time Series (TaTS), que aprovecha las propiedades periódicas de los textos emparejados con series temporales para mejorar las tareas de predicción e imputación multimodal en modelos numéricos existentes sin necesidad de modificar su arquitectura.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

El artículo presenta LaVCa, un enfoque basado en modelos de lenguaje grande que genera descripciones en lenguaje natural de la selectividad de los voxels en la corteza visual, superando a los métodos anteriores al revelar propiedades funcionales más detalladas y diferenciaciones finas en el procesamiento visual humano.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

El artículo presenta el marco COD (Clustering-On-Difficulty), que agrupa tareas por sus características de dificultad para predecir con alta precisión el rendimiento a escala de los modelos de lenguaje grandes, logrando un error promedio de solo 1,55 % en ocho benchmarks clave.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Este estudio presenta un algoritmo que fusiona imágenes de resonancia magnética multimodal (T1, T2, T1ce y FLAIR) mediante técnicas de segmentación 2D/3D con U-Net y promedios ponderados, logrando una clasificación de subclases de gliomas con una precisión del 99,25% utilizando un modelo ResNet50.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

El artículo presenta LOOP, un nuevo método de aprendizaje por refuerzo para el ajuste fino de modelos de difusión texto-a-imagen que combina técnicas de reducción de varianza de REINFORCE con la robustez de PPO para lograr un mejor equilibrio entre eficiencia de muestreo y rendimiento final.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

El artículo presenta OrthoGrad, un método novedoso para el olvido de datos que proyecta los gradientes de los datos a eliminar en un subespacio ortogonal a los de un conjunto de retención reducido, logrando así eliminar conceptos específicos sin comprometer el rendimiento del modelo cuando no se dispone del conjunto de entrenamiento completo.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Este estudio presenta GlucoLens, un sistema de aprendizaje automático explicable que utiliza datos de wearables y dietas para predecir la hiperglucemia postprandial y descubrir vías de tratamiento conductual mediante explicaciones contrafactuales, logrando un rendimiento superior al de los modelos comparativos en un ensayo clínico.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

El artículo presenta IMPACT, un marco de planificación de movimiento que utiliza Modelos Visuales-Lingüísticos para inferir la semántica del entorno y generar mapas de costos anisotrópicos, permitiendo a los robots encontrar trayectorias estables y seguras que incluyen contactos aceptables en entornos desordenados.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

El artículo presenta las equivalencias de prototipos suaves (SPE), un marco basado en redes neuronales invertibles que caracteriza el comportamiento a largo plazo de sistemas dinámicos no lineales a partir de observaciones escasas y ruidosas, permitiendo identificar estructuras invariantes y clasificar regímenes dinámicos sin necesidad de ecuaciones explícitas.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

El artículo presenta MUSS, un método novedoso de selección de subconjuntos multinivel que mejora significativamente la escalabilidad y el rendimiento en la selección de elementos relevantes y diversos para aplicaciones como sistemas de recomendación y RAG, ofreciendo una aproximación de factor constante al óptimo y superando a enfoques anteriores en precisión y velocidad.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Este estudio mejora la predicción del síndrome metabólico mediante un marco híbrido innovador llamado MetaBoost que optimiza el equilibrio de datos y un análisis contrafactual que identifica la glucosa y los triglicéridos como los factores modificables más críticos para reducir el riesgo.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

La investigación demuestra que, aunque los Modelos de Lenguaje Grande (LLM) pueden estimar la dificultad de ítems educativos, la estrategia que combina la extracción de características lingüísticas y cognitivas por parte del LLM con algoritmos de aprendizaje automático basados en árboles (como bosques aleatorios) supera significativamente a la estimación directa, ofreciendo una alternativa precisa y escalable para reducir la dependencia de costosas pruebas de campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Este trabajo presenta el primer agente de aprendizaje por refuerzo basado en visión que alcanza un nivel de campeón en Gran Turismo 7, utilizando únicamente datos de sensores a bordo y vistas de cámara para superar a los conductores integrados sin depender de localización global durante la inferencia.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Este artículo presenta un marco de respuesta lineal para la interpretabilidad que trata las redes neuronales como sistemas bayesianos de mecánica estadística, permitiendo identificar módulos funcionales en transformadores pequeños mediante el análisis de susceptibilidades derivadas de perturbaciones en la distribución de datos.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

El artículo presenta HetGL2R, un marco de aprendizaje profundo basado en grafos heterogéneos que integra flujos origen-destino y rutas para mejorar significativamente la clasificación de la importancia de segmentos viales mediante la captura de dependencias espaciales a larga distancia y asociaciones funcionales.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Este artículo presenta una revisión exhaustiva que unifica la evaluación de modelos de lenguaje y agentes autónomos mediante una taxonomía de aproximadamente 60 benchmarks, analiza marcos de trabajo y protocolos de colaboración, y explora aplicaciones reales junto con recomendaciones para futuras investigaciones en razonamiento avanzado y seguridad.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Este artículo presenta StablePCA, un marco de aprendizaje robusto distribucional que extrae representaciones latentes estables de datos multi-fuente mediante la maximización de la varianza explicada en el peor caso, abordando la no convexidad del problema original a través de una relajación convexa resuelta con un algoritmo Mirror-Prox y validada mediante un certificado dependiente de los datos.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Este artículo propone un marco de optimización de políticas offline personalizado para poblaciones heterogéneas, introduciendo el algoritmo P4L que utiliza variables latentes individuales para estimar funciones Q y garantizar un bajo arrepentimiento promedio bajo supuestos de cobertura parcial débiles.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

← Anterior Siguiente →