cs.LG artículos | Gist.Science

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Este trabajo presenta un modelo sustituto basado en una red neuronal residual completamente conectada (FCRN) que predice con alta precisión la distribución de densidad de corriente en imanes de superconductores de alta temperatura (HTS) de escala métrica, superando a los métodos de elementos finitos en velocidad y permitiendo una optimización inteligente y rápida del diseño magnético.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing Qu2026-03-11🤖 cs.LG

Repulsive Monte Carlo on the sphere for the sliced Wasserstein distance

Este artículo propone y evalúa métodos de Monte Carlo con nodos repulsivos para calcular la distancia de Wasserstein cortada, concluyendo que el estimador UnifOrtho es óptimo en altas dimensiones mientras que el cuasi-Monte Carlo aleatorizado es preferible en dimensiones bajas.

Vladimir Petrovic, Rémi Bardenet, Agnès Desolneux2026-03-11🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabajo presenta el Robot Control Stack (RCS), un ecosistema ligero y modular diseñado para cerrar la brecha entre el entrenamiento a gran escala de modelos de aprendizaje por refuerzo y visión-idioma-acción en simulación y su implementación en robots físicos, facilitando así la transferencia sim-real.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian Walter2026-03-11🤖 cs.LG

Kuramoto Orientation Diffusion Models

Los autores proponen un modelo generativo basado en puntuación que utiliza dinámicas estocásticas Kuramoto en dominios periódicos para modelar eficazmente imágenes ricas en orientación, como huellas dactilares y texturas, mediante un proceso de difusión que sincroniza fases en el paso forward y las desincroniza en el paso reverse para preservar patrones angulares coherentes.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

Este artículo demuestra que el agente de mutación de código basado en LLM llamado AlphaEvolve puede generar nuevos resultados en teoría de la complejidad, mejorando los límites de aproximación para problemas como MAX-CUT, MAX-4-CUT, MAX-3-CUT y el TSP métrico, al tiempo que utiliza la propia IA para acelerar la verificación de sus construcciones.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment

El marco VLCE mejora la descripción de imágenes de desastres al integrar conocimiento semántico externo de ConceptNet y WordNet en modelos visión-idioma, logrando una mayor precisión, coherencia y vocabulario específico del dominio en comparación con modelos generales como QwenVL.

Md. Mahfuzur Rahman, Kishor Datta Gupta, Marufa Kamal + 5 more2026-03-11🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

El artículo presenta ZeroSiam, una arquitectura asimétrica eficiente que previene el colapso en la minimización de entropía durante la prueba mediante alineación de divergencia asimétrica, mejorando la adaptación y el razonamiento en diversos modelos sin sobrecarga computacional.

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi Shen2026-03-11🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este trabajo presenta la Composición General de Políticas (GPC), un método sin entrenamiento que mejora el rendimiento de las políticas robóticas basadas en difusión o flujo mediante la combinación convexa de sus puntuaciones distribucionales en tiempo de prueba, logrando resultados superiores a los de las políticas individuales sin necesidad de nuevos datos de interacción.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. Luo2026-03-11🤖 cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Este artículo presenta un controlador híbrido que combina el aprendizaje por refuerzo profundo (DRL) con la búsqueda de extremos acotada (ES) para mejorar la robustez y el rendimiento de sistemas no lineales variantes en el tiempo, demostrando su eficacia mediante una simulación general y la sintonización automática de un acelerador de partículas.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander Scheinker2026-03-11🤖 cs.LG

Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

El artículo presenta AlphaApollo, un sistema de razonamiento agéntico que aborda las limitaciones en la resolución de problemas complejos y la evolución durante la inferencia mediante la orquestación de interacciones multi-turno, aprendizaje por refuerzo y un ciclo de evolución con verificación asistida por herramientas, logrando mejoras significativas en diversos benchmarks matemáticos.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artículo presenta DuNe, un marco de aprendizaje dual que aborda el desafío de la generalización de dominio en la segmentación semántica 3D de LiDAR bajo etiquetas ruidosas, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos mediante la consistencia de características y el filtrado basado en confianza.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

El artículo presenta RECODE, un marco agéntico que mejora el razonamiento visual en modelos multimodales al transformar la percepción de imágenes estructuradas en código ejecutable verificable mediante un proceso de generación, selección y refinamiento iterativo, logrando así un rendimiento superior en benchmarks como CharXiv y ChartQA.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

El artículo presenta REAP, un método de poda de expertos que supera a las técnicas de fusión en tareas generativas al preservar el control de enrutamiento fino, logrando una compresión casi sin pérdidas en modelos MoE masivos.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

El artículo presenta RL-100, un marco de aprendizaje por refuerzo en el mundo real basado en políticas de difusión que unifica la imitación y el refuerzo para lograr un control robótico de alta frecuencia y un rendimiento del 100% en diversas tareas complejas, superando a operadores expertos y demostrando una robustez sin precedentes en despliegues reales.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

Este trabajo presenta Bradley-Terry Policy Optimization (BTPO), un nuevo método que deriva un estimador de gradiente consistente para optimizar modelos de lenguaje generativos con razonamiento paso a paso en tareas de preferencia humana no verificables, superando así las limitaciones de los enfoques heurísticos anteriores.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal Faruqui2026-03-11🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

El artículo presenta AffPCL, un marco de aprendizaje colaborativo personalizado que utiliza mecanismos de corrección de sesgo e importancia para lograr una reducción adaptativa de la complejidad de muestreo en entornos heterogéneos, interpolando automáticamente entre la aceleración lineal y el aprendizaje independiente sin requerir conocimiento previo de la heterogeneidad del sistema.

Chenyu Zhang, Navid Azizan2026-03-11🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

El artículo presenta FALCON, un nuevo paradigma que mejora los modelos de visión-idioma-acción inyectando tokens espaciales 3D ricos derivados de modelos fundacionales en la cabeza de acción, logrando un rendimiento superior y una mayor robustez en tareas del mundo real sin comprometer el razonamiento lingüístico.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

El artículo presenta GraphKeeper, un método novedoso para el aprendizaje incremental de dominio en grafos que aborda el olvido catastrófico mediante la desensamblaje y preservación del conocimiento, logrando resultados superiores al estado del arte y una integración flexible con modelos fundamentales de grafos.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Este artículo propone un método de recalibración post-hoc para clasificación multiclase que, al motivar funciones paramétricas desde un marco teórico y gestionar el sobreajuste mediante regularización estructurada y optimización eficiente, logra mejoras sustanciales sobre las técnicas existentes como la escalada de temperatura.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis Bach2026-03-11🤖 cs.AI

← Anterior Siguiente →