cs.LG artículos | Gist.Science

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Este artículo presenta dos nuevos algoritmos de aprendizaje por refuerzo sin modelo, Q-EarlySettled-LowCost y FedQ-EarlySettled-LowCost, que logran simultáneamente un arrepentimiento casi óptimo, costos de inicio lineales en el número de estados y acciones, y costos de cambio de política o comunicación logarítmicos para entornos de agente único y federados.

Haochen Zhang, Zhong Zheng, Lingzhou XueWed, 11 Ma🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

El artículo presenta ChannelTokenFormer, un marco unificado basado en Transformers que aborda simultáneamente la dependencia entre canales, la asincronía en la muestreo y los valores faltantes para lograr un pronóstico robusto y preciso de series temporales multivariadas en escenarios del mundo real.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI

Uncovering Social Network Activity Using Joint User and Topic Interaction

Este artículo presenta el modelo MIC (Mixture of Interacting Cascades), basado en procesos puntuales de Hawkes multidimensionales, para capturar conjuntamente las interacciones entre usuarios y cascadas de información, demostrando un rendimiento superior en la modelización y visualización de la actividad en redes sociales.

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-FurlingWed, 11 Ma🤖 cs.LG

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

El artículo presenta ConLID, un enfoque novedoso de aprendizaje contrastivo supervisado que mejora significativamente la identificación de idiomas para lenguas de recursos escasos en datos fuera del dominio, manteniendo al mismo tiempo el rendimiento en lenguas de recursos abundantes.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Este artículo establece por primera vez garantías de convergencia global lineal para un algoritmo de Mínimos Cuadrados Ponderados Iterativamente (IRLS) con regularización dinámica en la recuperación robusta de subespacios, extendiendo estos resultados teóricos a la estimación de subespacios afines y demostrando su utilidad práctica en el entrenamiento de redes neuronales.

Gilad Lerman, Kang Li, Tyler Maunu, Teng ZhangWed, 11 Ma🤖 cs.LG

Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes

Este artículo establece tasas de convergencia para la última iterada de los algoritmos de descenso de gradiente estocástico (SGD) y de la bola pesada estocástica (SHB) en entornos paramétricos con funciones objetivo convexas o no convexas de gradiente Hölderiano, demostrando resultados mediante la desigualdad discreta de Gronwall sin recurrir al teorema de Robbins-Siegmund.

Marcel HudianiWed, 11 Ma🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Este estudio evalúa arquitecturas de DeepONet para el problema de consolidación geotécnica, demostrando que una variante mejorada con características de Fourier en la red del tronco supera a los modelos estándar y ofrece aceleraciones computacionales significativas (hasta 1.000 veces) en escenarios 3D, facilitando así la cuantificación de incertidumbre y la integración del aprendizaje científico en ingeniería geotécnica.

Yongjin Choi, Chenying Liu, Jorge MacedoWed, 11 Ma🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Este trabajo presenta LangevinFlow, un modelo de autoencoder variacional secuencial inspirado en la física que utiliza ecuaciones de Langevin subamortiguadas y osciladores acoplados para capturar con mayor precisión la dinámica latente de poblaciones neuronales, superando a los métodos actuales en la predicción de tasas de disparo y la decodificación de comportamientos.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

El artículo presenta "Latent Policy Steering" (LPS), un enfoque que mejora las políticas visuomotoras en regímenes de pocos datos mediante el preentrenamiento de un modelo de mundo con representaciones de acción agnósticas al cuerpo (como el flujo óptico) y su posterior ajuste fino para guiar la selección de acciones, logrando mejoras significativas tanto en simulación como en robots reales.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Este trabajo presenta MLES, un enfoque novedoso que combina modelos de lenguaje grandes multimodales con búsqueda evolutiva para descubrir políticas de control programáticas transparentes y verificables, logrando un rendimiento comparable al aprendizaje por refuerzo profundo tradicional mientras facilita la depuración y la transferencia de conocimiento.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu ZhangWed, 11 Ma🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Este artículo presenta CTRL, un método de meta-aprendizaje que combina el aprendizaje residual de transferencia y el agrupamiento adaptativo para mejorar la precisión general y preservar la heterogeneidad entre múltiples fuentes de datos pequeñas y diversas, demostrando un rendimiento superior en cinco conjuntos de datos a gran escala, incluido un programa nacional de asilo en Suiza.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth PaulsonWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Este artículo propone y evalúa un enfoque innovador que utiliza avatares virtuales y música generada por IA para transformar los sílabos tradicionales en presentaciones cantadas, logrando así mejorar significativamente la atención, la retención y el recuerdo de la información clave por parte de los estudiantes.

Xinxing WuWed, 11 Ma🤖 cs.AI

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Este trabajo presenta un marco de redes neuronales gráficas (GNN) ligero y eficiente en datos, informado por el dominio de RF, que logra una predicción precisa y generalizable del rendimiento de circuitos activos mediante abstracciones de grafos de dispositivos y codificación semántica, superando significativamente a los métodos existentes en precisión y capacidad de adaptación entre topologías.

Anahita Asadi, Leonid Popryho, Inna Partin-VaisbandWed, 11 Ma🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Este artículo presenta un método de aprendizaje en contexto iterativo que mejora la capacidad de generalización de los modelos de lenguaje grandes en tareas de razonamiento abstracto, como la resolución de expresiones algebraicas con reglas no estándar, demostrando que la selección iterativa de ejemplos simples junto con instrucciones de razonamiento explícitas supera el rendimiento de los ejemplos complejos.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò NavarinWed, 11 Ma🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Este trabajo presenta un modelo sustituto basado en una red neuronal residual completamente conectada (FCRN) que predice con alta precisión la distribución de densidad de corriente en imanes de superconductores de alta temperatura (HTS) de escala métrica, superando a los métodos de elementos finitos en velocidad y permitiendo una optimización inteligente y rápida del diseño magnético.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing QuWed, 11 Ma🤖 cs.LG

Repulsive Monte Carlo on the sphere for the sliced Wasserstein distance

Este artículo propone y evalúa métodos de Monte Carlo con nodos repulsivos para calcular la distancia de Wasserstein cortada, concluyendo que el estimador UnifOrtho es óptimo en altas dimensiones mientras que el cuasi-Monte Carlo aleatorizado es preferible en dimensiones bajas.

Vladimir Petrovic, Rémi Bardenet, Agnès DesolneuxWed, 11 Ma🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabajo presenta el Robot Control Stack (RCS), un ecosistema ligero y modular diseñado para cerrar la brecha entre el entrenamiento a gran escala de modelos de aprendizaje por refuerzo y visión-idioma-acción en simulación y su implementación en robots físicos, facilitando así la transferencia sim-real.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Kuramoto Orientation Diffusion Models

Los autores proponen un modelo generativo basado en puntuación que utiliza dinámicas estocásticas Kuramoto en dominios periódicos para modelar eficazmente imágenes ricas en orientación, como huellas dactilares y texturas, mediante un proceso de difusión que sincroniza fases en el paso forward y las desincroniza en el paso reverse para preservar patrones angulares coherentes.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

El artículo presenta ZeroSiam, una arquitectura asimétrica eficiente que previene el colapso en la minimización de entropía durante la prueba mediante alineación de divergencia asimétrica, mejorando la adaptación y el razonamiento en diversos modelos sin sobrecarga computacional.

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi ShenWed, 11 Ma🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este trabajo presenta la Composición General de Políticas (GPC), un método sin entrenamiento que mejora el rendimiento de las políticas robóticas basadas en difusión o flujo mediante la combinación convexa de sus puntuaciones distribucionales en tiempo de prueba, logrando resultados superiores a los de las políticas individuales sin necesidad de nuevos datos de interacción.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

← Anterior Siguiente →