cs.LG artículos | Gist.Science

Sparsity and Out-of-Distribution Generalization

Este artículo propone un marco teórico que explica la generalización fuera de distribución mediante la preferencia por hipótesis "esparcidas" (que dependen de pocas características) y demuestra un teorema que garantiza su validez cuando las distribuciones de entrenamiento y prueba se superponen en las características relevantes, extendiendo así los límites clásicos de complejidad de muestra.

Scott Aaronson, Lin Lin Lee, Jiawei Li2026-03-10🤖 cs.LG

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

El artículo presenta MARIGOLD, un marco algorítmico unificado que aborda la ineficiencia computacional de los métodos de balanceo de gradientes en el aprendizaje multitarea reformulando el problema como una optimización bi-nivel y resolviéndolo de manera eficiente mediante métodos de orden cero.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Este artículo presenta un sistema de triaje legal determinista y reproducible basado en codificadores duales y bandas difusas calibradas que equilibra la precisión del cumplimiento normativo con la transparencia y la trazabilidad de auditoría, superando a los modelos opacos y a las reglas manuales en la clasificación de evidencia contractual.

Rian Atri2026-03-10🤖 cs.LG

Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss

Este trabajo generaliza el objetivo del autoencoder lineal EDLAE mediante una Pérdida Cuadrática Esperada Desacoplada (DEQL), lo que permite derivar soluciones eficientes para un rango más amplio de hiperparámetros ( $b > 0$ ) que superan el rendimiento del modelo original en tareas de recomendación.

Ruixin Guo, Xinyu Li, Hao Zhou, Yang Zhou, Ruoming Jin2026-03-10🤖 cs.LG

Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting

Este trabajo introduce el marco teórico de la "Capacidad del Canal de Contexto" para explicar el olvido catastrófico en el aprendizaje continuo, demostrando que la arquitectura (específicamente la regeneración condicional de parámetros) es más determinante que el algoritmo para lograr un aprendizaje sin olvido y proponiendo nuevas direcciones de investigación basadas en este principio.

Ran Cheng2026-03-10🤖 cs.LG

DualSpec: Accelerating Deep Research Agents via Dual-Process Action Speculation

El artículo presenta DualSpec, un marco de especulación heterogéneo que acelera los agentes de investigación profunda al adaptar las estrategias de inferencia según la naturaleza de las acciones de búsqueda y visita, logrando una aceleración de hasta 3,28 veces sin comprometer la precisión.

Shuzhang Zhong, Baotong Lu, Qi Chen, Chuanjie Liu, Fan Yang, Meng Li2026-03-10🤖 cs.LG

OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

El artículo presenta OrthoFormer, una arquitectura de Transformer fundamentada en la causalidad que integra la estimación de variables instrumentales mediante funciones de control neuronales para separar los factores de confusión latentes de los flujos causales dinámicos, logrando así una reducción de sesgo teórica y una mayor robustez ante cambios de distribución.

Charles Luo2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabajo presenta un nuevo marco de aprendizaje por refuerzo y el benchmark AndroidWorld-Generalization para evaluar y mejorar la capacidad de generalización de agentes móviles basados en modelos de lenguaje y visión, demostrando que el entrenamiento con RL supera a los métodos supervisados en tareas no vistas, aunque la generalización a nuevas aplicaciones sigue siendo un desafío.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

El artículo presenta "Data Agent", un marco de selección de datos dinámico y de extremo a extremo que trata la selección como un problema de toma de decisiones secuencial consciente del entrenamiento, logrando acelerar significativamente el proceso de aprendizaje y reducir los costos en más del 50% sin sacrificar el rendimiento en diversas tareas y arquitecturas.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II

Este trabajo presenta garantías finitas de muestra para aprender representaciones de estado impulsadas por costos y controladores subóptimos en sistemas de control lineal cuadrático gaussiano (LQG) de horizonte infinito, abordando tanto modelos de dinámica latente explícitos como implícitos (similares a MuZero) y estableciendo una nueva contribución técnica sobre la excitación persistente en procesos estocásticos.

Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

El artículo presenta PACT, un marco de ajuste fino que preserva la alineación de seguridad en modelos de lenguaje al restringir específicamente la confianza en tokens de seguridad durante el entrenamiento, evitando así la deriva de seguridad sin comprometer el rendimiento en tareas generales.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Este artículo demuestra que un tokenizador discreto simple, combinado con suavizado gaussiano adaptativo, permite que los Transformers superen a los modelos de gradient boosting en la predicción tabular, logrando mayor precisión y calibración probabilística en un conjunto de datos masivo.

Yael S. Elmatad2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

El artículo presenta Dial, un sistema de NL2SQL basado en conocimiento que aborda la heterogeneidad de los dialectos SQL mediante planificación lógica consciente del dialecto, una base de conocimiento jerárquica y un bucle de depuración, logrando mejoras significativas en precisión y cobertura de características en comparación con los métodos existentes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

El artículo presenta SLNet, una red neuronal extremadamente ligera y adaptable geométricamente para el reconocimiento de nubes de puntos 3D que logra un rendimiento competitivo en diversas tareas con una fracción de los parámetros y costos computacionales de modelos existentes, gracias a sus componentes NAPE y GMU.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Este trabajo presenta el Transformador de Doble Flujo, una arquitectura que descompone el flujo residual en dos componentes funcionales distintos para lograr un equilibrio ajustable entre la interpretabilidad y el rendimiento en modelos de lenguaje, demostrando que estrategias de mezcla como la de Kronecker permiten una comunicación eficiente entre cabezas de atención con una pérdida de rendimiento mínima.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

El artículo presenta AFTUNE, un marco auditable y verificable que garantiza la integridad computacional del ajuste fino y la inferencia de modelos grandes en la nube mediante un mecanismo ligero de registro y verificación por muestreo, permitiendo a los clientes auditar procesos propietarios sin incurrir en sobrecargas prohibitivas.

Heng Jin, Chaoyu Zhang, Hexuan Yu, Shanghao Shi, Ning Zhang, Y. Thomas Hou, Wenjing Lou2026-03-10🤖 cs.LG

Probabilistic Inference and Learning with Stein's Method

Esta monografía ofrece una visión rigurosa de los aspectos teóricos y metodológicos de la inferencia probabilística y el aprendizaje mediante el método de Stein, abarcando desde la construcción de discrepancias y sus propiedades hasta su conexión con el descenso de gradiente variacional de Stein.

Qiang Liu, Lester Mackey, Chris Oates2026-03-10🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabajo propone un marco de adaptación ligero que, mediante el uso de adaptadores de bajo rango actualizados con aprendizaje auto-supervisado sobre una base congelada, mejora la robustez de los modelos de mejora de voz en entornos acústicos dinámicos con menos del 1% de parámetros actualizados y una rápida convergencia, facilitando su implementación en dispositivos.

Longbiao Cheng, Shih-Chii Liu2026-03-10🤖 cs.LG

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

Este estudio presenta un marco condicional de difusión-transformer que genera conjuntos heterogéneos de conformaciones tridimensionales del genoma de *E. coli* guiados por mapas de contacto Hi-C, superando las limitaciones de los modelos deterministas al preservar la diversidad conformacional y la consistencia física con los datos experimentales.

Mingxin Zhang, Xiaofeng Dai, Yu Yao, Ziqi Yin2026-03-10🤖 cs.LG

Interpretable-by-Design Transformers via Architectural Stream Independence

El artículo presenta la Arquitectura de Fusión Tardía (LFA), un diseño de transformadores que garantiza la interpretabilidad mediante la separación estructural de las corrientes de tokens y semántica hasta la salida, logrando así una mayor estabilidad y modularidad funcional en comparación con los modelos estándar.

Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

← Anterior Siguiente →