XConv: Low-memory stochastic backpropagation for convolutional layers

El artículo presenta XConv, un método de sustitución directa para capas convolucionales que reduce significativamente el uso de memoria mediante el almacenamiento de activaciones comprimidas y la estimación estocástica de gradientes, manteniendo al mismo tiempo el rendimiento, la convergencia y la compatibilidad con arquitecturas existentes sin imponer restricciones adicionales.

Anirudh Thatipelli, Jeffrey Sam, Mathias Louboutin, Ali Siahkoohi, Rongrong Wang, Felix J. HerrmannWed, 11 Ma🤖 cs.LG

A Survey on Decentralized Federated Learning

Esta encuesta revisa sistemáticamente los métodos de aprendizaje federado descentralizado (DFL) desde 2018 hasta principios de 2026, proponiendo una taxonomía unificada basada en desafíos que clasifica las arquitecturas tradicionales y basadas en blockchain, al tiempo que identifica limitaciones en las prácticas de evaluación y define direcciones futuras de investigación.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Este artículo demuestra que las redes neuronales convolucionales sobredimensionadas contienen subredes estructuradas que pueden aproximar redes más pequeñas sin entrenamiento, superando las limitaciones matemáticas previas mediante una generalización del problema de la suma de subconjuntos aleatorios para abordar la poda estructurada.

Arthur da Cunha, Francesco d'Amore, Emanuele NataleWed, 11 Ma🤖 cs.LG

Sparse Variational Student-t Processes for Heavy-tailed Modeling

El artículo presenta los Procesos de Student-t Variacionales Dispersos (SVTP), un marco novedoso que combina la robustez ante valores atípicos de los procesos Student-t con la escalabilidad de los métodos de puntos inducidos, logrando una convergencia más rápida y menores errores de predicción en comparación con los procesos gaussianos dispersos en conjuntos de datos grandes y con colas pesadas.

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artículo presenta un marco unificado que modela la cuantización y la dispersión como ruido aditivo y utiliza una transformada de descuantización por regresión de crestas para establecer un camino de gradiente explícito, permitiendo el entrenamiento robusto y estable de redes neuronales a precisiones arbitrarias y niveles de dispersión, incluidos modelos A1W1 y sub-1-bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning

El artículo presenta ARLBench, un benchmark eficiente y flexible para la optimización de hiperparámetros en aprendizaje por refuerzo que permite comparar diversos métodos de AutoRL utilizando un subconjunto representativo de tareas que reduce drásticamente los recursos computacionales necesarios.

Jannis Becktepe, Julian Dierkes, Carolin Benjamins, Aditya Mohan, David Salinas, Raghu Rajan, Frank Hutter, Holger Hoos, Marius Lindauer, Theresa EimerWed, 11 Ma🤖 cs.LG

DRUPI: Dataset Reduction Using Privileged Information

El artículo presenta DRUPI, un método de condensación de datasets que mejora el rendimiento al sintetizar información privilegiada (como etiquetas de características o atención) junto con los datos reducidos, logrando ganancias significativas en diversas tareas de visión por computadora.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artículo propone un método de aprendizaje no supervisado que factoriza las transformaciones de variables latentes en componentes esparsos mediante campos vectoriales rotacionales y potenciales, logrando representaciones disociadas que capturan tanto factores independientes como primitivas de transformación, lo que resulta en un rendimiento superior en verosimilitud de datos y errores de equivarianza aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Este trabajo propone un enfoque de optimización diferenciable basado en funciones de barrera de control para aprender de forma eficiente y cuantitativa la asignación de responsabilidad de los agentes en interacciones multiagente, permitiendo modelar su disposición a ajustar su comportamiento para garantizar la seguridad de los demás.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Calabi-Yau metrics through Grassmannian learning and Donaldson's algorithm

Este artículo presenta un nuevo enfoque principista que combina el algoritmo de Donaldson con técnicas de aprendizaje automático, específicamente el descenso de gradiente en variedades de Grassmann, para calcular aproximaciones de métricas de Kähler Ricci-planas en la familia de Dwork, observando la aparición de mínimos locales no triviales a medida que aumenta el parámetro del módulo.

Carl Henrik Ek, Oisin Kim, Challenger MishraWed, 11 Ma🤖 cs.LG

Adaptive and Stratified Subsampling for High-Dimensional Robust Estimation

Este artículo presenta dos estimadores de submuestreo, Muestreo de Importancia Adaptativo (AIS) y Submuestreo Estratificado (SS), que logran tasas óptimas minimax para la regresión robusta de alta dimensión bajo ruido de cola pesada, contaminación y dependencia temporal, cerrando la brecha entre teoría y algoritmo mediante un marco teórico riguroso y validación empírica superior.

Prateek Mittal, Joohi ChauhanWed, 11 Ma🤖 cs.LG

Scalable Message Passing Neural Networks: No Need for Attention in Large Graph Representation Learning

Los autores proponen las Redes Neuronales de Paso de Mensajes Escalables (SMPNNs), una arquitectura que sustituye el mecanismo de atención por convoluciones estándar dentro de bloques tipo Transformer con normalización Pre-Layer, logrando un rendimiento competitivo en grafos grandes y permitiendo redes profundas sin sufrir el problema de sobre-suavizado, todo ello respaldado por un nuevo análisis teórico sobre la aproximación universal.

Haitz Sáez de Ocáriz Borde, Artem Lukoianov, Anastasis Kratsios, Michael Bronstein, Xiaowen DongWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Este trabajo presenta a CuriousBot, un sistema que utiliza un grafo relacional de objetos 3D para superar las limitaciones de los métodos actuales de exploración móvil al permitir la interacción activa en entornos complejos y diversos, demostrando una mayor eficacia y generalización que las soluciones basadas únicamente en modelos de visión y lenguaje.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG