cs.LG artículos | Gist.Science

FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

El artículo presenta FlexRec, un marco de aprendizaje por refuerzo post-entrenamiento para sistemas de recomendación basados en LLM que supera los desafíos de asignación de crédito y retroalimentación escasa mediante recompensas a nivel de ítem fundamentadas en causalidad y escalado guiado por incertidumbre, logrando mejoras significativas en la adaptación a necesidades específicas y en escenarios de generalización.

Yijun Pan, Weikang Qiu, Qiyao Ma, Mingxuan Ju, Tong Zhao, Neil Shah, Rex Ying2026-03-13🤖 cs.LG

Causal Representation Learning with Optimal Compression under Complex Treatments

Este artículo propone un nuevo límite de generalización y un estimador teórico para pesos de balanceo óptimos en escenarios de múltiples tratamientos, introduciendo la estrategia de Agregación de Tratamientos y el modelo generativo Multi-Treatment CausalEGM para lograr una precisión superior y una escalabilidad constante que supera a los modelos tradicionales.

Wanting Liang, Haoang Chi, Zhiheng Zhang2026-03-13📊 stat

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

El artículo presenta EnTransformer, un marco de pronóstico generativo profundo que combina la regresión estocástica con arquitecturas Transformer para realizar pronósticos probabilísticos multivariados coherentes y bien calibrados sin depender de suposiciones paramétricas restrictivas.

Rajdeep Pathak, Rahul Goswami, Madhurima Panja, Palash Ghosh, Tanujit Chakraborty2026-03-13📊 stat

Chem4DLLM: 4D Multimodal LLMs for Chemical Dynamics Understanding

Este artículo presenta Chem4DLLM, un modelo multimodal que integra un codificador gráfico equivariante con un modelo de lenguaje grande para abordar la nueva tarea de Comprensión de Dinámica Química (ChemDU), la cual traduce trayectorias moleculares 4D en explicaciones naturales mediante el nuevo conjunto de datos Chem4DBench.

Xinyu Li, Zhen Zhang, Qi Chen, Anton van den Hengel, Lina Yao, Javen Qinfeng Shi2026-03-13💬 cs.CL

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

El artículo presenta MobileKernelBench, un marco de evaluación que revela las limitaciones actuales de los LLMs para generar kernels eficientes en dispositivos móviles, y propone MoKA, un agente multiagente que supera estos desafíos logrando una tasa de compilación del 93,7% y mejoras de velocidad significativas.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang2026-03-13🤖 cs.LG

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

El artículo presenta ProtoSR, un enfoque que mejora la generación de informes radiológicos estructurados y de alta granularidad extrayendo conocimiento de informes en texto libre mediante prototipos visuales para corregir y refinar las predicciones del modelo.

Chantal Pellegrini, Adrian Delchev, Ege Özsoy, Nassir Navab, Matthias Keicher2026-03-13🤖 cs.AI

Exhaustive Circuit Mapping of a Single-Cell Foundation Model Reveals Massive Redundancy, Heavy-Tailed Hub Architecture, and Layer-Dependent Differentiation Control

Este estudio presenta un mapeo exhaustivo del modelo fundacional de células individuales Geneformer que revela una arquitectura de red masivamente redundante y dominada por hubs no anotados, confirma una redundancia subaditiva en ablations combinatorias y establece causalmente que la posición de la capa determina la dirección de la diferenciación celular.

Ihor Kendiukhov2026-03-13🤖 cs.LG

Causal Matrix Completion under Multiple Treatments via Mixed Synthetic Nearest Neighbors

Este trabajo propone el método de Vecinos Sintéticos Mixtos (MSNN), un nuevo estimador que integra información entre distintos niveles de tratamiento para mejorar la completación causal de matrices en escenarios con datos escasos, manteniendo al mismo tiempo las garantías teóricas de los Vecinos Sintéticos (SNN) originales.

Minrui Luo, Zhiheng Zhang2026-03-13🤖 cs.LG

Effective Resistance Rewiring: A Simple Topological Correction for Over-Squashing

El artículo presenta la Reconfiguración de Resistencia Efectiva (ERR), una estrategia de corrección topológica que utiliza la resistencia efectiva global para identificar y mitigar los cuellos de botella estructurales que causan el "sobre-aplastamiento" en las Redes Neuronales de Grafos, mejorando la propagación de información a larga distancia mientras gestiona el equilibrio entre la conectividad y el sobre-suavizado mediante técnicas de normalización.

Bertran Miquel-Oliver, Manel Gil-Sorribes, Victor Guallar, Alexis Molina2026-03-13🤖 cs.LG

Geometry-Aware Probabilistic Circuits via Voronoi Tessellations

Los autores proponen integrar teselaciones de Voronoi en circuitos probabilísticos para capturar la geometría local de los datos, abordando la pérdida de tratabilidad mediante un marco de inferencia aproximada con límites garantizados y una condición estructural que permite la inferencia exacta, todo ello habilitado para el aprendizaje mediante una relajación diferenciable.

Sahil Sidheekh, Sriraam Natarajan2026-03-13🤖 cs.LG

Learning Transferable Sensor Models via Language-Informed Pretraining

El artículo presenta SLIP, un marco de preentrenamiento de código abierto que alinea representaciones de sensores con el lenguaje mediante un embebido de parches flexible y un modelo de lenguaje preentrenado, logrando un rendimiento superior en transferencia cero, descripción de señales y preguntas sobre sensores a través de configuraciones y resoluciones temporales diversas.

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu, Tess Z. Griffin, Lisa Marsch, Michael V. Heinz, Nicholas C. Jacobson, Andrew Campbell2026-03-13🤖 cs.AI

Uncovering Locally Low-dimensional Structure in Networks by Locally Optimal Spectral Embedding

Este artículo presenta la Incrustación Espectral Adyacente Local (LASE), un método que descubre estructuras de baja dimensión local en redes mediante una descomposición espectral ponderada, superando las limitaciones de los enfoques globales al reducir el error de truncamiento y mejorar la reconstrucción y visualización de características locales.

Hannah Sansford, Nick Whiteley, Patrick Rubin-Delanchy2026-03-13📊 stat

Statistical and structural identifiability in representation learning

Este artículo formaliza la estabilidad de los modelos de aprendizaje de representaciones mediante las nociones de identificabilidad estadística y estructural, demostrando que el análisis de componentes independientes (ICA) aplicado a representaciones latentes permite lograr un desentrelazamiento efectivo y mejorar la generalización en tareas biológicas y sintéticas.

Walter Nelson, Marco Fumero, Theofanis Karaletsos, Francesco Locatello2026-03-13🤖 cs.LG

Topological DeepONets and a generalization of the Chen-Chen operator approximation theorem

Este artículo generaliza el teorema de aproximación de operadores de Chen-Chen y la arquitectura DeepONet al contexto de espacios localmente convexos de Hausdorff arbitrarios, demostrando que los operadores continuos definidos en estos espacios pueden aproximarse uniformemente mediante redes neuronales topológicas con componentes de rama y tronco.

Vugar Ismailov2026-03-13🤖 cs.LG

On-Average Stability of Multipass Preconditioned SGD and Effective Dimension

Este artículo establece un marco de estabilidad algorítmica promedio para el descenso de gradiente estocástico precondicionado multipaso, demostrando cómo la elección del precondicionador afecta la dimensión efectiva y el riesgo de generalización, y proporcionando límites superiores e inferiores coincidentes que vinculan la curvatura del riesgo poblacional con la geometría del ruido.

Simon Vary, Tyler Farghly, Ilja Kuzborskij, Patrick Rebeschini2026-03-13📊 stat

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

Este artículo presenta BTZSC, un benchmark integral de 22 conjuntos de datos que evalúa y compara sistemáticamente el rendimiento de cuatro familias de modelos (codificadores cruzados, modelos de incrustación, rerankers y LLMs) en clasificación de texto zero-shot, revelando que los rerankers modernos establecen un nuevo estado del arte mientras que los modelos de incrustación ofrecen el mejor equilibrio entre precisión y latencia.

Ilias Aarab2026-03-13💬 cs.CL

Few-for-Many Personalized Federated Learning

El artículo presenta FedFew, un algoritmo de aprendizaje federado personalizado que reformula el problema como una optimización "pocos para muchos" utilizando solo $K$ modelos compartidos en el servidor para servir eficientemente a $M$ clientes con datos heterogéneos, logrando un rendimiento superior al estado del arte sin necesidad de particionamiento manual o ajuste exhaustivo de hiperparámetros.

Ping Guo, Tiantian Zhang, Xi Lin, Xiang Li, Zhi-Ri Tang, Qingfu Zhang2026-03-13🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Este artículo propone una arquitectura de orquestación descentralizada para la computación fluida que habilita la coordinación multi-dominio autónoma y mejora la seguridad en escenarios de Aprendizaje Federado Descentralizado mediante un mecanismo de detección de anomalías llamado FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-López2026-03-13🤖 cs.LG

Deep Learning-Based Metamodeling of Nonlinear Stochastic Dynamic Systems under Parametric and Predictive Uncertainty

Este artículo propone y valida tres marcos de metamodelado basados en aprendizaje profundo (MLP-LSTM, MPNN-LSTM y AE-LSTM) para predecir con precisión y cuantificar la incertidumbre la respuesta dinámica de sistemas estructurales no lineales de alta dimensión bajo cargas sísmicas estocásticas y variabilidad paramétrica.

Haimiti Atila, Seymour M. J. Spence2026-03-13🤖 cs.LG

Flowcean - Model Learning for Cyber-Physical Systems

El artículo presenta Flowcean, un marco innovador que automatiza la generación de modelos para Sistemas Ciberfísicos mediante aprendizaje de datos, destacando por su arquitectura modular, flexibilidad y enfoque en la usabilidad para optimizar el diseño y la operación de estos sistemas complejos.

Maximilian Schmidt, Swantje Plambeck, Markus Knitt, Hendrik Rose, Goerschwin Fey, Jan Christian Wieck, Stephan Balduin2026-03-13🤖 cs.LG

← Anterior Siguiente →