cs.LG artículos | Gist.Science

Geometry-Aware Probabilistic Circuits via Voronoi Tessellations

Los autores proponen integrar teselaciones de Voronoi en circuitos probabilísticos para capturar la geometría local de los datos, abordando la pérdida de tratabilidad mediante un marco de inferencia aproximada con límites garantizados y una condición estructural que permite la inferencia exacta, todo ello habilitado para el aprendizaje mediante una relajación diferenciable.

Sahil Sidheekh, Sriraam Natarajan2026-03-13🤖 cs.LG

Learning Transferable Sensor Models via Language-Informed Pretraining

El artículo presenta SLIP, un marco de preentrenamiento de código abierto que alinea representaciones de sensores con el lenguaje mediante un embebido de parches flexible y un modelo de lenguaje preentrenado, logrando un rendimiento superior en transferencia cero, descripción de señales y preguntas sobre sensores a través de configuraciones y resoluciones temporales diversas.

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu, Tess Z. Griffin, Lisa Marsch, Michael V. Heinz, Nicholas C. Jacobson, Andrew Campbell2026-03-13🤖 cs.AI

Uncovering Locally Low-dimensional Structure in Networks by Locally Optimal Spectral Embedding

Este artículo presenta la Incrustación Espectral Adyacente Local (LASE), un método que descubre estructuras de baja dimensión local en redes mediante una descomposición espectral ponderada, superando las limitaciones de los enfoques globales al reducir el error de truncamiento y mejorar la reconstrucción y visualización de características locales.

Hannah Sansford, Nick Whiteley, Patrick Rubin-Delanchy2026-03-13📊 stat

Statistical and structural identifiability in representation learning

Este artículo formaliza la estabilidad de los modelos de aprendizaje de representaciones mediante las nociones de identificabilidad estadística y estructural, demostrando que el análisis de componentes independientes (ICA) aplicado a representaciones latentes permite lograr un desentrelazamiento efectivo y mejorar la generalización en tareas biológicas y sintéticas.

Walter Nelson, Marco Fumero, Theofanis Karaletsos, Francesco Locatello2026-03-13🤖 cs.LG

Topological DeepONets and a generalization of the Chen-Chen operator approximation theorem

Este artículo generaliza el teorema de aproximación de operadores de Chen-Chen y la arquitectura DeepONet al contexto de espacios localmente convexos de Hausdorff arbitrarios, demostrando que los operadores continuos definidos en estos espacios pueden aproximarse uniformemente mediante redes neuronales topológicas con componentes de rama y tronco.

Vugar Ismailov2026-03-13🤖 cs.LG

On-Average Stability of Multipass Preconditioned SGD and Effective Dimension

Este artículo establece un marco de estabilidad algorítmica promedio para el descenso de gradiente estocástico precondicionado multipaso, demostrando cómo la elección del precondicionador afecta la dimensión efectiva y el riesgo de generalización, y proporcionando límites superiores e inferiores coincidentes que vinculan la curvatura del riesgo poblacional con la geometría del ruido.

Simon Vary, Tyler Farghly, Ilja Kuzborskij, Patrick Rebeschini2026-03-13📊 stat

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

Este artículo presenta BTZSC, un benchmark integral de 22 conjuntos de datos que evalúa y compara sistemáticamente el rendimiento de cuatro familias de modelos (codificadores cruzados, modelos de incrustación, rerankers y LLMs) en clasificación de texto zero-shot, revelando que los rerankers modernos establecen un nuevo estado del arte mientras que los modelos de incrustación ofrecen el mejor equilibrio entre precisión y latencia.

Ilias Aarab2026-03-13💬 cs.CL

Few-for-Many Personalized Federated Learning

El artículo presenta FedFew, un algoritmo de aprendizaje federado personalizado que reformula el problema como una optimización "pocos para muchos" utilizando solo $K$ modelos compartidos en el servidor para servir eficientemente a $M$ clientes con datos heterogéneos, logrando un rendimiento superior al estado del arte sin necesidad de particionamiento manual o ajuste exhaustivo de hiperparámetros.

Ping Guo, Tiantian Zhang, Xi Lin, Xiang Li, Zhi-Ri Tang, Qingfu Zhang2026-03-13🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Este artículo propone una arquitectura de orquestación descentralizada para la computación fluida que habilita la coordinación multi-dominio autónoma y mejora la seguridad en escenarios de Aprendizaje Federado Descentralizado mediante un mecanismo de detección de anomalías llamado FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-López2026-03-13🤖 cs.LG

Deep Learning-Based Metamodeling of Nonlinear Stochastic Dynamic Systems under Parametric and Predictive Uncertainty

Este artículo propone y valida tres marcos de metamodelado basados en aprendizaje profundo (MLP-LSTM, MPNN-LSTM y AE-LSTM) para predecir con precisión y cuantificar la incertidumbre la respuesta dinámica de sistemas estructurales no lineales de alta dimensión bajo cargas sísmicas estocásticas y variabilidad paramétrica.

Haimiti Atila, Seymour M. J. Spence2026-03-13🤖 cs.LG

Flowcean - Model Learning for Cyber-Physical Systems

El artículo presenta Flowcean, un marco innovador que automatiza la generación de modelos para Sistemas Ciberfísicos mediante aprendizaje de datos, destacando por su arquitectura modular, flexibilidad y enfoque en la usabilidad para optimizar el diseño y la operación de estos sistemas complejos.

Maximilian Schmidt, Swantje Plambeck, Markus Knitt, Hendrik Rose, Goerschwin Fey, Jan Christian Wieck, Stephan Balduin2026-03-13🤖 cs.LG

Efficient Generative Modeling with Unitary Matrix Product States Using Riemannian Optimization

Este artículo presenta un enfoque de optimización riemanniana para entrenar estados de producto de matriz unitarios (MPS) en tareas de modelado generativo, logrando una adaptación rápida, actualizaciones estables y un alto rendimiento en conjuntos de datos como Bars-and-Stripes y EMNIST al resolver las ineficiencias de los métodos basados en gradientes estándar.

Haotong Duan, Zhongming Chen, Ngai Wong2026-03-13🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

El artículo presenta AGMARL-DKS, un planificador de Kubernetes impulsado por aprendizaje por refuerzo multiagente que utiliza redes neuronales gráficas y un ordenamiento lexicográfico sensible al estrés para superar las limitaciones de escalabilidad y adaptabilidad de los enfoques existentes, logrando mejoras significativas en tolerancia a fallos, utilización de recursos y costos.

Hamed Hamzeh2026-03-13🤖 cs.LG

Frequentist Consistency of Prior-Data Fitted Networks for Causal Inference

Este trabajo demuestra que los estimadores de redes ajustadas a datos previos (PFN) para el efecto causal medio pueden sufrir sesgos inducidos por el prior que impiden la consistencia frecuentista, y propone un método de corrección posterior de un paso basado en martingalas que restaura dicha consistencia y garantiza una cuantificación de incertidumbre bien calibrada tanto en muestras finitas como asintóticas.

Valentyn Melnychuk, Vahid Balazadeh, Stefan Feuerriegel, Rahul G. Krishnan2026-03-13🤖 cs.LG

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

El artículo presenta "Slow-Fast Inference", un marco de inferencia sin entrenamiento que acelera la decodificación autoregresiva en contextos largos al decoupar la generación en pasos rápidos que reutilizan una memoria esparsa y pasos lentos que actualizan dicha memoria en límites semánticos, logrando un aumento significativo en el rendimiento sin comprometer la calidad.

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan2026-03-13🤖 cs.LG

Continual Learning with Vision-Language Models via Semantic-Geometry Preservation

El artículo propone SeGP-CL, un método de aprendizaje continuo para modelos visión-idioma que mitiga el olvido catastrófico sin necesidad de ejemplos previos preservando la geometría semántica mediante la generación de anclajes adversarios, destilación geométrica y regularización textual.

Chiyuan He, Zihuan Qiu, Fanman Meng, Runtong Zhang, Linfeng Xu, Qingbo Wu, Hongliang Li2026-03-13🤖 cs.LG

Chemical Reaction Networks Learn Better than Spiking Neural Networks

Este artículo demuestra matemáticamente y mediante experimentos numéricos que las redes de reacciones químicas sin capas ocultas pueden aprender tareas de clasificación más eficiente y con mayor precisión que las redes neuronales de spiking que requieren capas ocultas, ofreciendo una explicación teórica sobre la posible superioridad del aprendizaje en redes bioquímicas celulares frente a las neuronales.

Sophie Jaffard, Ivo F. Sbalzarini2026-03-13📊 stat

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Este artículo presenta un marco de aprendizaje profundo basado en redes convolucionales temporales que aborda la predicción de sitios de unión de factores de transcripción como un problema de clasificación multietiqueta, logrando capturar correlaciones y mecanismos cooperativos entre múltiples factores para revelar patrones de unión biológicamente significativos y nuevas relaciones.

Pietro Demurtas, Ferdinando Zanchetta, Giovanni Perini, Rita Fioresi2026-03-13🧬 q-bio

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

El artículo presenta QAvatar, un enfoque de aprendizaje por refuerzo que aborda los desafíos de la transferencia entre dominios mediante la consistencia de Bellman cruzada y un crítico híbrido, logrando así una transferencia de conocimiento fiable y eficiente en diversas tareas de robótica y locomoción.

Ming-Hong Chen, Kuan-Chen Pan, You-De Huang, Xi Liu, Ping-Chun Hsieh2026-03-13🤖 cs.LG

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Este trabajo propone un pipeline de búsqueda de arquitecturas neuronales (NAS) eficiente en recursos que utiliza modelos de lenguaje grandes (LLM) en un bucle cerrado con memoria de retroalimentación histórica para iterativamente generar y refinar arquitecturas de redes convolucionales en una sola GPU de consumo, logrando mejoras significativas en precisión sin necesidad de fine-tuning ni infraestructura en la nube.

Xiaojie Gu, Dmitry Ignatov, Radu Timofte2026-03-13🤖 cs.LG

← Anterior Siguiente →