cs.LG artículos | Gist.Science

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Este trabajo presenta MMTU, un nuevo benchmark a gran escala con más de 28.000 preguntas sobre 25 tareas de tablas del mundo real diseñado para evaluar exhaustivamente las capacidades de comprensión, razonamiento y manipulación de datos estructurados en modelos de lenguaje, revelando que incluso los modelos más avanzados actuales tienen un margen significativo de mejora.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

Leveraging chaotic transients in the training of artificial neural networks

Este artículo demuestra que utilizar tasas de aprendizaje excepcionalmente altas, que sitúan al entrenamiento de redes neuronales en un régimen transitorio caótico caracterizado por un equilibrio entre exploración y explotación, permite acelerar significativamente el tiempo de entrenamiento necesario para alcanzar una alta precisión en diversas arquitecturas y tareas de aprendizaje supervisado.

Pedro Jiménez-González, Miguel C. Soriano, Lucas Lacasa2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

El artículo presenta EROICA, el primer sistema de resolución de problemas en línea que diagnostica con un 97,5% de éxito fallos de rendimiento en clusters de entrenamiento de modelos grandes de ~100.000 GPUs mediante perfilado en tiempo real y observabilidad diferencial, logrando una cobertura completa con impacto mínimo en la producción.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Este artículo presenta BemaGANv2, un vocador basado en GAN optimizado para la generación de audio de larga duración que introduce innovaciones arquitectónicas como el módulo AMP y el Discriminador de Sobres Multi-Envolvente (MED), evaluando sistemáticamente diversas estrategias de combinación de discriminadores para mejorar la coherencia temporal y la fidelidad del audio.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

El artículo presenta Co-LoRA, un enfoque de aprendizaje federado personalizado que aborda la heterogeneidad tanto de datos como de modelos mediante una estrategia de agregación consciente de la relevancia de la tarea y un módulo adaptable a diferentes arquitecturas, validado en un nuevo benchmark multimodal que demuestra un rendimiento superior al estado del arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Este trabajo presenta dos algoritmos eficientes, Slate-GLM-OFU y Slate-GLM-TS, para el problema de los banditos contextuales de láminas logísticas con retroalimentación de banda, los cuales logran un bajo arrepentimiento y una complejidad computacional lineal mediante la combinación de planificación local y aprendizaje global, demostrando su superioridad tanto en entornos sintéticos como en la selección de ejemplos para prompts de modelos de lenguaje.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

El artículo propone "Sharp MinMax", un método que combina la minimización sensible a la nitidez (SAM) para las señales de retención y la maximización de la nitidez para las de olvido, demostrando que esta estrategia mejora el desaprendizaje de máquina al reducir la entrelazación de características, fortalecer la resistencia a ataques de inferencia de membresía y lograr un paisaje de pérdida más plano.

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Kolmogorov-Arnold Energy Models: Fast, Interpretable Generative Modeling

El artículo presenta el Modelo de Energía Kolmogorov-Arnold (KAEM), un nuevo enfoque generativo que combina la eficiencia y la interpretabilidad de los modelos latentes simples con la expresividad de los métodos iterativos, logrando inferencia rápida y exacta mediante una estructura latente univariada y técnicas de muestreo avanzadas.

Prithvi Raj2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artículo presenta GLMask, un enfoque de aprendizaje semi-autosupervisado que transforma la segmentación semántica en segmentación de instancias con mínima anotación manual, logrando un rendimiento superior al estado del arte en la detección de espigas de trigo y en el conjunto de datos COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Este trabajo presenta SamS, un algoritmo eficiente que mejora el rendimiento de la Optimización Directa de Preferencias (DPO) al adaptar dinámicamente la selección de muestras en cada lote basándose en el estado evolutivo del modelo, logrando una mayor capacidad de generalización sin modificar el algoritmo central ni añadir una carga computacional significativa.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion es un método que permite a los robots imitar tareas de manipulación a partir de una sola demostración humana, combinando la reasignación cinemática de la trayectoria con una política de difusión preentrenada para adaptar el movimiento al contexto robótico sin necesidad de datos emparejados ni entrenamiento específico.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este estudio demuestra que adoptar una dieta visual de desarrollo inspirada en la maduración humana permite crear sistemas de visión artificial más robustos, que dependen principalmente de la forma en lugar de la textura y superan el estado del arte en reconocimiento de formas abstractas y resistencia a perturbaciones.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Noisy PDE Training Requires Bigger PINNs

El artículo demuestra que las Redes Neuronales Informadas por Física (PINNs) requieren un tamaño de modelo suficientemente grande para lograr un riesgo empírico inferior a la varianza del ruido en los datos, estableciendo un límite inferior cuantitativo que impide que simplemente aumentar la cantidad de etiquetas ruidosas reduzca el error sin un aumento proporcional en los parámetros.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Este trabajo presenta TableEG, un marco basado en modelos de lenguaje grandes y fine-tuning que genera errores sintéticos auténticos en tablas, logrando una distribución y patrones similares a los errores reales para establecer un benchmark robusto que supera a los métodos existentes y facilita la evaluación de técnicas de detección y corrección de datos.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin Tong2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artículo presenta MCULoRA, un nuevo enfoque de adaptación de bajo rango que desacopla dinámicamente las características de las combinaciones modales para resolver los conflictos de gradientes en el reconocimiento de emociones multimodal con datos incompletos, superando significativamente a los métodos existentes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

El artículo propone un método de verificación auto-ancorada (SGV) que mitiga el sesgo de acuerdo en los modelos de lenguaje multimodal (MLLM), mejorando significativamente la detección de errores y el rendimiento de agentes autónomos en tareas complejas como la navegación web y la robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Flow Matching Meets Biology and Life Science: A Survey

Este artículo presenta la primera encuesta exhaustiva sobre el flujo de emparejamiento y sus aplicaciones en biología y ciencias de la vida, abarcando desde sus fundamentos teóricos hasta su uso en la modelación de secuencias biológicas, el diseño de moléculas y la generación de péptidos y proteínas.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models

Este artículo propone un enfoque basado en "árboles de trayectorias" y búsqueda Monte Carlo (MCTS) para generalizar de modelos débiles a fuertes en entornos de decisión complejos, aprovechando tanto el conocimiento de éxito como la experiencia de fracaso para optimizar el rendimiento del modelo fuerte.

Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui2026-03-10🤖 cs.LG

Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

Este trabajo expone cómo un auditor malicioso puede manipular muestras de datos para crear una ilusión de cumplimiento de las normas de equidad sin alterar significativamente la distribución subyacente, y propone métodos estadísticos basados en la distancia de distribución para detectar y contrarrestar estos ataques de manipulación.

Valentin Lafargue, Adriana Laurindo Monteiro, Emmanuelle Claeys, Laurent Risser, Jean-Michel Loubes2026-03-10🤖 cs.LG

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

Este artículo presenta un marco de red-teaming dinámico, automático y sistemático (DAS) que revela una brecha crítica entre el alto rendimiento en benchmarks estáticos y la baja fiabilidad dinámica de los modelos de lenguaje médico, demostrando que la mayoría de estos sistemas son vulnerables a fallos de robustez, privacidad, sesgo y alucinaciones cuando se someten a pruebas de estrés continuas y adaptativas.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG

← Anterior Siguiente →