cs.LG artículos | Gist.Science

Deep Learning Network-Temporal Models For Traffic Prediction

Este artículo presenta y evalúa dos modelos de aprendizaje profundo, una red de atención gráfica temporal personalizada y un modelo de lenguaje grande ajustado, demostrando que este último ofrece un rendimiento de predicción y generalización superior para series temporales multivariadas de redes, mientras que el primero destaca por reducir la varianza de las predicciones.

Yufeng Xin, Ethan Fan2026-03-13🤖 cs.LG

Leveraging Phytolith Research using Artificial Intelligence

El artículo presenta "Sorometry", una plataforma integral de inteligencia artificial que combina análisis de imágenes 2D y nubes de puntos 3D para automatizar la clasificación y cuantificación de fitolitos, superando las limitaciones de los métodos manuales y permitiendo un análisis a escala de "ómicas" de muestras arqueológicas y paleoecológicas.

Andrés G. Mejía Ramón, Kate Dudgeon, Nina Witteveen, Dolores Piperno, Michael Kloster, Luigi Palopoli, Mónica Moraes R., José M. Capriles, Umberto Lombardo2026-03-13🧬 q-bio

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Este trabajo presenta un marco neuro-simbólico basado en un Árbol de Lógica de Eventos (ELT) que permite a agentes de Modelos de Lenguaje Visuales (VLM) detectar eventos en series temporales multivariadas a partir de descripciones en lenguaje natural, logrando una mayor precisión y explicabilidad que los enfoques existentes al mitigar las alucinaciones mediante la estructuración de la lógica temporal.

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Este artículo demuestra teórica y experimentalmente que la normalización softmax en Transformers obliga a la formación de "sumideros de atención" para realizar tareas condicionales a un disparador, mientras que los mecanismos de atención no normalizados como ReLU pueden resolverlas sin dichos sumideros.

Yuval Ran-Milo2026-03-13🤖 cs.LG

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

El artículo presenta KEPo, un nuevo método de ataque de envenenamiento diseñado específicamente para sistemas de generación aumentada por recuperación basados en grafos (GraphRAG), el cual manipula la evolución del conocimiento dentro del grafo para engañar a los modelos de lenguaje y generar respuestas maliciosas, superando significativamente a las técnicas de ataque anteriores.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Sharpness-Aware Minimization for Generalized Embedding Learning in Federated Recommendation

Este artículo presenta FedRecGEL, un nuevo marco de aprendizaje federado que aborda la dificultad de obtener incrustaciones de artículos generalizadas en entornos heterogéneos mediante la reformulación del problema como aprendizaje multitarea y la aplicación de minimización sensible a la agudeza (SAM) para estabilizar el entrenamiento y mejorar el rendimiento de las recomendaciones.

Fengyuan Yu, Xiaohua Feng, Yuyuan Li, Changwang Zhang, Jun Wang, Chaochao Chen2026-03-13🤖 cs.LG

LongFlow: Efficient KV Cache Compression for Reasoning M

El artículo presenta LongFlow, un método de compresión de caché KV diseñado específicamente para modelos de razonamiento de larga salida que logra una mejora de hasta 11,8 veces en el rendimiento y una compresión del 80% de la caché con un impacto mínimo en la precisión, mediante una estimación de importancia eficiente y un kernel personalizado que fusiona múltiples operaciones.

Yi Su, Zhenxu Tian, Dan Qiao, Yuechi Zhou, Juntao Li, Min Zhang2026-03-13🤖 cs.LG

Gen-Fab: A Variation-Aware Generative Model for Predicting Fabrication Variations in Nanophotonic Devices

Este artículo presenta Gen-Fab, un modelo generativo basado en cGAN que predice con alta precisión y modela la incertidumbre de las variaciones de fabricación en dispositivos nanofotónicos, superando a métodos deterministas y de ensamble en la generación de imágenes de resultados de fabricación a escala nanométrica.

Rambod Azimi, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur2026-03-13🤖 cs.AI

CFD-HAR: User-controllable Privacy through Conditional Feature Disentanglement

El artículo propone un método de reconocimiento de actividades humanas basado en la desvinculación condicional de características que permite a los usuarios controlar su privacidad al separar atributos sensibles de los datos de actividad, comparándolo con enfoques de pocos ejemplos y concluyendo que se necesitan marcos unificados para equilibrar privacidad, eficiencia y robustez en sistemas IoT.

Alex Gn, Fan Li, S Kuniyilh, Ada Axan2026-03-13🤖 cs.LG

Simultaneous estimation of multiple discrete unimodal distributions under stochastic order constraints

Este artículo propone un método de estimación simultánea de múltiples distribuciones discretas unimodales bajo restricciones de orden estocástico, formulado como un problema de optimización cuadrática convexa mixta-entera que demuestra una reducción significativa en la divergencia Jensen-Shannon en escenarios con muestras pequeñas.

Yasuhiro Yoshida, Noriyoshi Sukegawa, Jiro Iwanaga2026-03-13📊 stat

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

El artículo presenta un marco de IA agéntica que orquesta herramientas especializadas para diversas modalidades mediante un Supervisor adaptativo, logrando reducciones significativas en tiempo, rework conversacional y costos sin comprometer la precisión en comparación con enfoques jerárquicos tradicionales.

Mayank Saini Arit Kumar Bishwas2026-03-13💬 cs.CL

Multi-Task Anti-Causal Learning for Reconstructing Urban Events from Residents' Reports

Este artículo presenta MTAC, un marco de aprendizaje multi-tarea anti-causal que explota invarianzas cruzadas entre tareas para reconstruir eventos urbanos (como violaciones de estacionamiento o propiedades abandonadas) a partir de informes de residentes, logrando mejoras significativas en la precisión al inferir causas latentes mediante un modelo estructurado compartido.

Liangkai Zhou, Susu Xu, Shuqi Zhong, Shan Lin2026-03-13🤖 cs.LG

CAETC: Causal Autoencoding and Treatment Conditioning for Counterfactual Estimation over Time

El artículo presenta CAETC, un método novedoso basado en aprendizaje de representaciones adversarias y autoencoders que elimina el sesgo de confusión dependiente del tiempo para mejorar la estimación de efectos contrafactuales en datos longitudinales, demostrando un rendimiento superior en diversos conjuntos de datos.

Nghia D. Nguyen, Pablo Robles-Granda, Lav R. Varshney2026-03-13🤖 cs.LG

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

Este estudio presenta un marco novedoso que integra el análisis de supervivencia con técnicas de clasificación para predecir eficazmente el riesgo temprano de cinco enfermedades crónicas comunes utilizando datos clínicos masivos, demostrando un rendimiento superior o comparable a modelos de vanguardia y validando clínicamente sus explicaciones.

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.LG

Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization

Este estudio presenta H-EARS, un método unificado y ligero que combina el modelado de recompensas basado en potencial con la regularización de acciones consciente de la energía para acelerar la convergencia y mejorar la eficiencia energética en el aprendizaje por refuerzo profundo, sin requerir modelos dinámicos completos.

Qijun Liao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Jue Yang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yiting Kang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Xinxin Zhao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yong Zhang (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China), Mingan Zhao (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China)2026-03-13🤖 cs.LG

AutoScout: Structured Optimization for Automating ML System Configuration

El artículo presenta AutoScout, un configurador de sistemas de aprendizaje automático de propósito general que utiliza un marco de optimización híbrido para navegar eficientemente espacios de configuración complejos y jerárquicos, logrando aceleraciones de entrenamiento de 2.7 a 3.0 veces en comparación con ajustes expertos.

Jimmy Shong, Yuhan Ding, Yihan Jiang, Liheng Jing, Haonan Chen, Gaokai Zhang, Aditya Akella, Fan Lai2026-03-13🤖 cs.LG

Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE

Este estudio demuestra que aplicar la codificación posicional rotatoria (RoPE) a solo una pequeña fracción de las dimensiones ocultas (alrededor del 10%) permite lograr una convergencia comparable a la del RoPE completo y ahorrar hasta un 10 veces de memoria, ofreciendo una guía práctica para equilibrar la eficiencia y la estabilidad en el entrenamiento de modelos.

Mohammad Aflah Khan, Krishna P. Gummadi, Manish Gupta, Abhilasha Ravichander2026-03-13🤖 cs.LG

Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild

El artículo presenta "Shape-of-You", un marco de aprendizaje no supervisado que reformula la generación de pseudoetiquetas para la correspondencia semántica como un problema de Transporte Óptimo Gromov-Wasserstein Fusionado utilizando un modelo fundacional 3D para resolver ambigüedades geométricas, logrando así un rendimiento de vanguardia en imágenes de la vida real sin anotaciones explícitas.

Jiin Im, Sisung Liu, Je Hyeong Hong2026-03-13🤖 cs.LG

Personalized Federated Learning via Gaussian Generative Modeling

El artículo presenta pFedGM, un enfoque de aprendizaje federado personalizado basado en modelado generativo gaussiano que aborda la heterogeneidad de los datos mediante la modelización de distribuciones específicas de cada cliente y un marco de fusión dual inspirado en la ganancia de Kalman para lograr un equilibrio óptimo entre la colaboración global y la personalización local.

Peng Hu, Jianwei Ma2026-03-13🤖 cs.LG

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Este trabajo demuestra que, contrariamente a la creencia establecida, el ajuste secuencial simple con adaptación de bajo rango (LoRA) es un método robusto y eficaz para el aprendizaje continuo en modelos de visión-idioma-acción, logrando una alta plasticidad sin olvidar conocimientos previos y superando a estrategias más complejas.

Jiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin2026-03-13🤖 cs.LG

← Anterior Siguiente →