cs.LG artículos | Gist.Science

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Este artículo propone un enfoque unificado para la generación eficiente de razonamiento en modelos de lenguaje mediante el Principio del Cuello de Botella de Información Condicional (CIB), que reformula el problema como una compresión con pérdidas para eliminar el relleno cognitivo sin sacrificar la lógica, superando las limitaciones de los métodos actuales de "forzamiento de presupuesto" mediante una función de objetivo de aprendizaje por refuerzo que prioriza la información semántica sobre el simple conteo de tokens.

Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi2026-03-10🤖 cs.LG

MUSA-PINN: Multi-scale Weak-form Physics-Informed Neural Networks for Fluid Flow in Complex Geometries

El artículo presenta MUSA-PINN, un método de redes neuronales informadas por física de forma débil multi-escala que reformula las leyes de conservación como integrales sobre volúmenes de control jerárquicos para resolver con mayor precisión y estabilidad el flujo de fluidos en geometrías complejas como las superficies mínimas periódicas triplemente (TPMS), superando las limitaciones de convergencia de los enfoques tradicionales.

Weizheng Zhang, Xunjie Xie, Hao Pan, Xiaowei Duan, Bingteng Sun, Qiang Du, Lin lu2026-03-10🤖 cs.LG

Integrating Lagrangian Neural Networks into the Dyna Framework for Reinforcement Learning

Este trabajo propone un marco de aprendizaje por refuerzo basado en modelos (MBRL) que integra redes neuronales lagrangianas dentro de la arquitectura Dyna para garantizar el cumplimiento de las leyes físicas y mejorar la precisión de las predicciones, demostrando que el uso de optimizadores basados en estimación de estado acelera la convergencia en comparación con los métodos basados en gradiente estocástico.

Shreya Das, Kundan Kumar, Muhammad Iqbal, Outi Savolainen, Dominik Baumann, Laura Ruotsalainen, Simo Särkkä2026-03-10🤖 cs.LG

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

El artículo presenta STRIDE, un marco de aprendizaje de dinámica robótica que combina redes neuronales lagrangianas para la mecánica conservadora y el emparejamiento de flujos condicionales para modelar interacciones estocásticas, logrando una mayor precisión en la predicción a largo plazo y de fuerzas de contacto en entornos inciertos.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

El artículo presenta X-AVDT, un detector de deepfakes robusto que aprovecha las señales de alineación audio-visual internas de los generadores obtenidas mediante inversión DDIM, junto con el nuevo conjunto de datos multimodal MMDF, para lograr un rendimiento superior y una mejor generalización frente a modelos de síntesis no vistos.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

NN-OpInf: an operator inference approach using structure-preserving composable neural networks

El artículo presenta NN-OpInf, un marco de inferencia de operadores no intrusivo que utiliza redes neuronales composables y preservadoras de estructura para lograr una reducción de orden más precisa y estable en sistemas dinámicos con no linealidades no polinómicas, superando a los métodos polinómicos tradicionales a costa de un mayor costo computacional.

Eric Parish, Anthony Gruber, Patrick Blonigan, Irina Tezaur2026-03-10🤖 cs.LG

Pareto-Optimal Anytime Algorithms via Bayesian Racing

El artículo presenta PolarBear, un marco basado en inferencia bayesiana y rankings que identifica el conjunto de Pareto de algoritmos de optimización en tiempo real sin necesidad de normalización ni conocer los óptimos, permitiendo una selección coherente bajo presupuestos computacionales inciertos.

Jonathan Wurth, Helena Stegherr, Neele Kemper, Michael Heider, Jörg Hähner2026-03-10🤖 cs.LG

Efficient Credal Prediction through Decalibration

Este trabajo propone un método eficiente de predicción credal basado en la recalibración y la descalibración que genera intervalos de probabilidad plausibles sin necesidad de reentrenar ensembles, permitiendo así la cuantificación de incertidumbre epistémica en modelos complejos como TabPFN y CLIP.

Paul Hofman, Timo Löhr, Maximilian Muschalik, Yusuf Sale, Eyke Hüllermeier2026-03-10🤖 cs.LG

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

El artículo presenta Echo2ECG, un marco de aprendizaje multimodal auto-supervisado que enriquece las representaciones de los electrocardiogramas (ECG) integrando la morfología cardíaca de ecocardiogramas multivista, logrando un rendimiento superior en tareas clínicas que requieren información estructural y superando a modelos de referencia mucho más grandes.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Este trabajo presenta el Enmascaramiento Suave Guiado por Oráculo (OGSS), un marco que combina un modelo de política de aprendizaje por imitación con un predictor de errores tácticos derivado de Stockfish para permitir una exploración segura y competitiva en ajedrez, reduciendo significativamente la tasa de errores sin comprometer el rendimiento.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

Este trabajo supera la barrera de sesgo en el aprendizaje por refuerzo multiobjetivo con escalarización cóncava mediante un algoritmo de gradiente de política natural equipado con un estimador Monte Carlo de múltiples niveles, logrando una complejidad de muestra óptima de $\widetilde{\mathcal{O}}(\epsilon^{-2})$ y demostrando que, bajo suavidad de segundo orden, el sesgo de primer orden se cancela automáticamente.

Swetha Ganesh, Vaneet Aggarwal2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

El artículo presenta \texttt{GlobAlign} y su variante eficiente \texttt{GlobAlign-E}, nuevos métodos de alineación de grafos sin supervisión que superan las limitaciones de precisión y eficiencia de las técnicas existentes mediante un paradigma de representación global y transporte óptimo jerárquico, logrando mejoras significativas en exactitud y velocidad.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Este trabajo presenta ProReFF, un modelo que aprende distribuciones relativas de características a partir de observaciones no etiquetadas para guiar agentes robóticos en la búsqueda de objetos, logrando una eficiencia un 20% superior a la de las mejores bases de comparación y alcanzando hasta el 80% del rendimiento humano.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

Interactive World Simulator for Robot Policy Training and Evaluation

El artículo presenta el "Interactive World Simulator", un marco que utiliza modelos de consistencia para generar simulaciones interactivas rápidas y físicamente coherentes que permiten entrenar y evaluar políticas robóticas de manera escalable con un rendimiento comparable al obtenido con datos del mundo real.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Generative Adversarial Regression (GAR): Learning Conditional Risk Scenarios

El artículo propone Generative Adversarial Regression (GAR), un marco que utiliza un enfoque minimax para entrenar generadores que aprenden escenarios de riesgo condicionales alineados con objetivos de riesgo elicitables (como VaR y ES), demostrando en datos del S&P 500 una superioridad en la preservación del riesgo frente a métodos tradicionales.

Saeed Asadi, Jonathan Yu-Meng Li2026-03-10🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Este trabajo establece límites teóricos sobre el error de aproximación en la representación de estados para el aprendizaje por refuerzo, demostrando cómo la calidad de la representación basada en autovectores del Laplaciano depende de la conectividad algebraica del grafo de transiciones y proporcionando una descomposición del error que incluye la estimación de dichos autovectores.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo Papini2026-03-10🤖 cs.LG

Trust via Reputation of Conviction

Este artículo presenta un marco matemático que fundamenta la confianza en la "convicción" (la probabilidad de que la postura de una fuente sea validada por un consenso independiente) en lugar de la mera corrección, definiendo la reputación como la convicción esperada ponderada y aplicando este modelo a los agentes de IA para establecer una base robusta y verificable para su confianza.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

El artículo presenta Drift2Act, un controlador que transforma la monitorización de la deriva de datos en un proceso de toma de decisiones con restricciones de seguridad, utilizando certificados de riesgo en línea para guiar intervenciones automáticas y garantizar una recuperación rápida con un coste moderado y violaciones de seguridad cercanas a cero.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

El artículo presenta DualFlexKAN, una arquitectura flexible de redes neuronales Kolmogorov-Arnold que utiliza un mecanismo de doble etapa para controlar independientemente las transformaciones de entrada y las activaciones de salida, logrando una mayor precisión y eficiencia con significativamente menos parámetros que las KANs y MLPs convencionales.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabajo propone dos nuevos algoritmos de aprendizaje por refuerzo profundo en modo streaming, S2AC y SDAC, diseñados para superar las limitaciones computacionales de los métodos por lotes y facilitar el ajuste fino en dispositivos, logrando un rendimiento comparable al estado del arte sin necesidad de un ajuste exhaustivo de hiperparámetros.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

← Anterior Siguiente →