cs.LG artículos | Gist.Science

Autoregressive Visual Decoding from EEG Signals

El artículo presenta AVDE, un marco ligero y eficiente que utiliza un modelo autoregresivo y aprendizaje contrastivo para decodificar señales EEG en imágenes con alta fidelidad, superando a los métodos anteriores en rendimiento y reduciendo significativamente la complejidad computacional.

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

El artículo presenta CeRA, un adaptador paralelo que supera las limitaciones lineales de LoRA en tareas de razonamiento complejo mediante la expansión de variedades y el uso de puertas SiLU, logrando una eficiencia espectral superior y evitando el colapso de rango.

Hung-Hsuan Chen2026-03-10🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Este artículo presenta un enfoque para mejorar la relevancia de la búsqueda en la App Store mediante el uso de un modelo de lenguaje grande (LLM) especializado y ajustado para generar millones de etiquetas de relevancia textual, lo que permitió optimizar simultáneamente la relevancia conductual y textual, resultando en un aumento estadísticamente significativo del 0,24% en la tasa de conversión global y mejoras notables en consultas de cola.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

End-to-end Differentiable Calibration and Reconstruction for Optical Particle Detectors

Este artículo presenta el primer simulador de detectores de partículas ópticas totalmente diferenciable, que unifica la simulación, la calibración y la reconstrucción en un único marco basado en gradientes, logrando una mayor precisión y eficiencia computacional mientras simplifica los pipelines de análisis tradicionales.

Omar Alterkait, César Jesús-Valls, Ryo Matsumoto, Patrick de Perio, Kazuhiro Terao2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Este artículo presenta Attn-QAT, el primer estudio sistemático de entrenamiento consciente de la cuantización (QAT) para atención a 4 bits, que logra una inferencia estable y rápida en GPUs FP4 mediante la corrección de la recomputación de precisión y los cálculos de gradiente, eliminando la necesidad de heurísticas para mitigar valores atípicos.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

The Partition Principle Revisited: Non-Equal Volume Designs Achieve Minimal Expected Star Discrepancy

Este artículo demuestra que las particiones de volumen no igual, un nuevo diseño de muestreo estratificado, logran una discrepancia estelar esperada estrictamente menor y mejores cotas superiores que el muestreo jittered clásico, estableciendo así una base teórica para su uso en integración numérica de alta dimensión.

Xiaoda Xu2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

Este trabajo presenta un marco reproducible y escalable para evaluar el razonamiento de modelos multimodales en señales de ECG, descomponiéndolo en percepción (verificación empírica de patrones mediante código) y deducción (alineación lógica con criterios clínicos estructurados) para superar las limitaciones de las métricas actuales.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Este artículo presenta un marco de dos capas que combina un modelo oculto de Markov para inferir el estado oculto de los rivales y una red neuronal profunda para optimizar la estrategia energética en la Fórmula 1 de 2026, permitiendo a los equipos detectar y contrarrestar tácticas engañosas bajo condiciones de observabilidad parcial.

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Este informe describe el sistema TCG CREST para el desafío DISPLACE-M, el cual logró una mejora relativa del 39% en la tasa de error de diarización al utilizar el sistema híbrido Diarizen basado en WavLM con aglomeración jerárquica, clasificándose en sexto lugar entre 11 equipos participantes.

Nikhil Raghav, Md Sahidullah2026-03-10🤖 cs.LG

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Este artículo presenta una arquitectura de pipeline basada en detección que logra una segmentación glótica robusta y generalizable en videoendoscopias de alta velocidad, permitiendo la extracción precisa de biomarcadores cinemáticos para la evaluación clínica de patologías vocales.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Este trabajo propone un marco robusto que combina la arquitectura CoAtNet con la técnica de "model soups" para clasificar imágenes del Patrimonio Cultural Inmaterial del Delta del Mekong, logrando un rendimiento superior al reducir la varianza mediante el promediado de checkpoints diversos en un escenario de datos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Este artículo presenta un algoritmo de aprendizaje TD multiagente con recompensa promedio que, mediante la estimación conjunta de un subespacio lineal compartido y cabezales locales, logra una aceleración lineal al filtrar señales conflictivas en entornos heterogéneos, superando desafíos analíticos derivados del muestreo markoviano y la interconexión de errores.

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable $\ell_1$ -regression into neural networks for uncovering temporal structure in cell imaging

Este artículo propone integrar un modelo de regresión vectorial autorregresiva (VAR) con regularización $\ell_1$ dentro de un autoencoder convolucional para extraer dinámicas temporales esparsas e interpretables de imágenes de calcio de dos fotones, combinando la capacidad de reducción de dimensionalidad de las redes neuronales con la claridad estadística de la regresión esparsa.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artículo presenta GramCol y un algoritmo de selección de características para generar Mapas de Atención Motriz Interpretables (IMAP), permitiendo localizar espaciotemporalmente conceptos de movimiento en Video Diffusion Transformers sin necesidad de cálculos de gradiente ni actualización de parámetros.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Este trabajo presenta CGL, un marco de aprendizaje continuo para agentes de interfaces gráficas que combina ajuste fino supervisado y aprendizaje por refuerzo mediante un mecanismo de ajuste dinámico y una estrategia de cirugía de gradientes para equilibrar la adaptación a nuevas tareas con la retención de conocimientos previos, validado mediante el nuevo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Este artículo demuestra teóricamente que Adam supera a SGD al lograr una dependencia de $\delta^{-1/2}$ en la probabilidad de convergencia frente a la dependencia de $\delta^{-1}$ de SGD, gracias a su normalización del segundo momento bajo un modelo de varianza acotada.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

El estudio introduce la descomposición de sondas composicionales (CPD) para demostrar que la alineación de la tarea de entrenamiento y la arquitectura equivariante determinan un gradiente de accesibilidad lineal en la información geométrica de los modelos fundamentales atómicos, revelando cómo la información se enruta selectivamente según su tipo de simetría.

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

El artículo presenta XInsight, un marco de agentes multi-sistema inspirado en la consejería psicológica que integra el paradigma Exploración-Insight-Acción y un ciclo de razonamiento-intervención-reflexión para ofrecer apoyo terapéutico estructurado y transparente en plataformas web, validado mediante la nueva métrica XInsight-Bench.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

El artículo presenta vLLM Hook, un complemento de código abierto que habilita la programación de estados internos en modelos vLLM mediante modos pasivo y activo, permitiendo aplicaciones como la detección de inyección de prompts, la mejora de RAG y la orientación de activaciones.

Ching-Yun Ko, Pin-Yu Chen2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

El artículo presenta la "Capa Isotónica", un marco diferenciable universal que integra ajustes lineales por tramos en arquitecturas neuronales para calibrar y eliminar sesgos en sistemas de recomendación a gran escala, logrando una mayor precisión predictiva y consistencia en el ranking mediante la descomposición de objetivos y la adaptación contextual.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

← Anterior Siguiente →

cs.LG