cs.LG artículos | Gist.Science

Tensor Train Completion from Fiberwise Observations Along a Single Mode

Este trabajo presenta un método rápido y determinista basado en álgebra lineal estándar para completar tensores mediante la descomposición en tren tensorial, aprovechando patrones de observación donde las fibras a lo largo de un único modo están completamente registradas o totalmente ausentes.

Shakir Showkat Sofi, Lieven De Lathauwer2026-03-12⚡ eess

Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems

Este artículo presenta un método de solución transferible y de cero disparos para problemas de control óptimo paramétrico que, mediante el uso de políticas de codificador de funciones y una descomposición fuera de línea/en línea, permite una adaptación eficiente a nuevos objetivos con un costo computacional mínimo y un rendimiento casi óptimo.

Xingjian Li, Kelvin Kan, Deepanshu Verma, Krishna Kumar, Stanley Osher, Ján Drgona2026-03-12🤖 cs.LG

Global Minimizers of Sigmoid Contrastive Loss

Este artículo explica teóricamente las ventajas de sincronizar la temperatura inversa y el sesgo entrenables en la pérdida de contraste sigmoidea, introduciendo el concepto de "Constelaciones" para justificar el éxito de SigLIP, explicar la brecha modal observada en modelos como CLIP y SigLIP, y determinar la dimensión necesaria para generar representaciones de alta calidad.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

Deep Learning for Clouds and Cloud Shadow Segmentation in Methane Satellite and Airborne Imaging Spectroscopy

Este estudio demuestra que los modelos de aprendizaje profundo, específicamente U-Net y SCAN, superan significativamente a los métodos convencionales en la detección precisa de nubes y sombras para mejorar la cuantificación de emisiones de metano en las misiones satelitales MethaneSAT y MethaneAIR.

Manuel Perez-Carrasco, Maya Nasr, Sebastien Roche + 12 more2026-03-12🤖 cs.LG

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

Este estudio presenta una investigación empírica a gran escala que revela que las dependencias intra e inter-modales en los conjuntos de datos multimodales varían significativamente y que muchos benchmarks diseñados para reducir sesgos textuales han inadvertidamente amplificado la dependencia de las imágenes, lo que subraya la necesidad de un diseño de evaluación más riguroso.

Divyam Madaan, Varshan Muhunthan, Kyunghyun Cho, Sumit Chopra2026-03-12💬 cs.CL

Proposing a Framework for Machine Learning Adoption on Legacy Systems

Este artículo presenta un marco práctico basado en API que desacopla el ciclo de vida de los modelos de aprendizaje automático de los sistemas heredados mediante una interfaz web ligera, permitiendo a las empresas integrar capacidades de ML sin costosas actualizaciones de hardware ni tiempos de inactividad operativa.

Ashiqur Rahman, Hamed Alhoori2026-03-12🤖 cs.LG

One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

El artículo presenta SMoPE, un marco novedoso que integra una arquitectura de Mezcla de Expertos Escasos (MoE) en el aprendizaje continuo basado en prompts para equilibrar la eficiencia computacional y el rendimiento, mitigando la interferencia de conocimientos mediante la activación dinámica de expertos compartidos y mecanismos de pérdida basados en prototipos.

Minh Le, Bao-Ngoc Dao, Huy Nguyen, Quyen Tran, Anh Nguyen, Nhat Ho2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

El artículo presenta RADAR, un marco de enrutamiento ligero e interpretable que optimiza el equilibrio entre rendimiento y coste en modelos de razonamiento asignando dinámicamente consultas de mayor dificultad a pares de modelo-presupuesto con mayor capacidad, basándose en un modelo de respuesta a ítems inspirado en la psicometría.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI

Composer: A Search Framework for Hybrid Neural Architecture Design

El marco de búsqueda de arquitecturas modulares "Composer" descubre nuevas arquitecturas híbridas de LLM que superan a Llama 3.2 en precisión, eficiencia y pérdida de validación al explorar sistemáticamente combinaciones de primitivas computacionales a pequeña escala y extrapolar los resultados a escalas mayores.

Bilge Acun, Prasoon Sinha, Newsha Ardalani, Sangmin Bae, Alicia Golden, Chien-Yu Lin, Meghana Madhyastha, Fei Sun, Neeraja J. Yadwadkar, Carole-Jean Wu2026-03-12🤖 cs.LG

Uncovering Semantic Selectivity of Latent Groups in Higher Visual Cortex with Mutual Information-Guided Diffusion

El artículo presenta MIG-Vis, un método que utiliza modelos de difusión guiados por información mutua para visualizar y validar la selectividad semántica de grupos latentes en la corteza visual superior, demostrando mediante datos de macacos que la información visual se organiza en subespacios neuronales estructurados y semánticamente significativos.

Yule Wang, Joseph Yu, Chengrui Li, Weihan Li, Anqi Wu2026-03-12🧬 q-bio

Communication Enables Cooperation in LLM Agents: A Comparison with Curriculum-Based Approaches

El estudio demuestra que en sistemas de agentes LLM, la comunicación directa es un mecanismo de coordinación más robusto y fiable que el aprendizaje curricular, el cual puede socavar la alineación al inducir pesimismo aprendido mediante diseños de entrenamiento inadecuados.

Hachem Madmoun, Salem Lahlou2026-03-12🤖 cs.LG

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Este artículo presenta la primera evaluación sistemática del aprendizaje auto-supervisado para la estadificación del sueño con EEG portátil, demostrando que este enfoque supera a los modelos supervisados y a las redes neuronales de propósito general al lograr una precisión clínica con solo un 5% al 10% de datos etiquetados.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

Geopolitics, Geoeconomics, and Sovereign Risk: Different Shocks, Different Channels

El artículo demuestra que los choques geopolíticos y geoeconómicos afectan de manera distinta al riesgo soberano, operando a través de canales opuestos (un patrón de tijeras) donde los primeros impactan directamente el riesgo de incumplimiento y los segundos se transmiten mediante la política monetaria y el ciclo financiero global, lo que implica que la provisión de liquidez puede mitigar el segundo tipo de riesgo pero no el componente persistente de las primas de riesgo geopolítico.

Alvaro Ortiz, Tomasa Rodrigo, Pablo Saborido2026-03-12📊 stat

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

El artículo presenta HyWA, un enfoque de detección de actividad vocal personalizada que utiliza una hiperred para generar pesos adaptados a un hablante específico en capas seleccionadas de un modelo estándar, logrando mejoras consistentes en el rendimiento y facilitando el despliegue al reutilizar la misma arquitectura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Este artículo presenta un marco generativo explicable y consciente de los sesgos que unifica la fusión de atención multimodal, la atribución Grad-CAM++ y un bucle de retroalimentación de revisión para mejorar la precisión, la robustez y la equidad en aplicaciones de IA de alto riesgo.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

Absolute indices for determining compactness, separability and number of clusters

Este artículo presenta nuevos índices absolutos de validez de clusters que permiten determinar la compacidad, la separabilidad y el número óptimo de clusters en un conjunto de datos, superando las limitaciones de los índices relativos tradicionales mediante su validación en diversos conjuntos de datos sintéticos y reales.

Adil M. Bagirov, Ramiz M. Aliguliyev, Nargiz Sultanova, Sona Taheri2026-03-12📊 stat

Predicting kernel regression learning curves from only raw data statistics

Este artículo presenta un marco teórico basado en la "ansatz de estructura de autovalores Hermite" (HEA) que permite predecir las curvas de aprendizaje del regresión de kernel en conjuntos de datos reales utilizando únicamente estadísticas de datos brutos, demostrando que la estructura de datos anisotrópica se comporta de manera suficientemente gaussiana para aplicar aproximaciones analíticas y extendiendo estos hallazgos al aprendizaje de características en redes neuronales.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

Revisiting Value Iteration: Unified Analysis of Discounted and Average-Reward Cases

Este trabajo presenta un análisis unificado basado en la geometría que demuestra que, bajo la suposición de una política óptima única y unichain, el algoritmo de Iteración de Valores converge geométricamente tanto en los casos de recompensa descontada como promedio, superando las tasas de convergencia establecidas por teorías anteriores.

Arsenii Mustafin, Xinyi Sheng, Dominik Baumann2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

El artículo presenta KVTC, un codificador transformador ligero que comprime las cachés KV de los modelos de lenguaje grandes mediante decorrelación de características, cuantización adaptativa y codificación de entropía, logrando una reducción de memoria de hasta 20 veces sin comprometer la precisión del modelo.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Causal Regime Detection in Energy Markets With Augmented Time Series Structural Causal Models

Este artículo presenta los Modelos Causales de Series Temporales Aumentados (ATSCM), un enfoque que integra la descubrimiento causal neuronal para modelar las relaciones causales dinámicas en los mercados energéticos y permitir el razonamiento contrafactual sobre escenarios de generación renovada sin depender de grafos causales predefinidos.

Dennis Thumm2026-03-12📊 stat

← Anterior Siguiente →