cs.LG artículos | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

Este artículo presenta CDGLT, un marco eficiente y de alto rendimiento para la identificación de metáforas multimodales que utiliza el ajuste de Concept Drift y LayerNorm para superar las limitaciones de los métodos existentes y reducir los costos computacionales.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia Li2026-03-11🤖 cs.LG

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

El artículo presenta SGPO, un marco de optimización de políticas que mitiga la limitación de GRPO de no aprender de grupos de respuestas incorrectas al introducir diversidad mediante un modelo juez paso a paso, logrando así mejorar el rendimiento de modelos de razonamiento al permitirles aprender de sus errores sin requerir soluciones correctas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

Este artículo presenta el GM-RBM, un modelo generativo que extiende los RBM tradicionales mediante unidades latentes categóricas de q estados (modelo de Potts), demostrando que esta arquitectura discreta mejora el rendimiento en tareas de memoria estructurada y razonamiento analógico en comparación con modelos de latentes continuos o binarios de capacidad equivalente.

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke Theogarajan2026-03-11🤖 cs.LG

JULI: Jailbreak Large Language Models by Self-Introspection

El artículo presenta JULI, un método que logra el jailbreak de modelos de lenguaje grandes mediante la manipulación de las probabilidades de registro de tokens utilizando un pequeño módulo llamado BiasNet, permitiendo atacar eficazmente modelos propietarios en configuración de caja negra sin necesidad de acceder a sus pesos internos.

Jesson Wang, Zhanhao Hu, David Wagner2026-03-11🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

Este trabajo propone un método para descubrir ecuaciones diferenciales simbólicas a partir de datos utilizando invariantes de simetría como entidades atómicas, lo que garantiza que las ecuaciones halladas respeten las leyes físicas y mejore la precisión y eficiencia de las técnicas existentes.

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu2026-03-11🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

El artículo presenta UltraEdit, un método de edición de modelos de lenguaje sin entrenamiento, sujeto ni memoria que logra actualizaciones rápidas y escalables con bajo consumo de recursos, superando a los enfoques anteriores y validándose mediante un nuevo conjunto de datos masivo llamado UltraEditBench.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Este artículo presenta una metodología sistemática para evaluar modelos de lenguaje grandes en dispositivos de borde, demostrando que los modelos grandes altamente cuantizados superan a los modelos más pequeños de alta precisión y ofreciendo directrices para optimizar su rendimiento bajo restricciones de recursos.

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

El artículo presenta Saturn, un marco de aprendizaje por refuerzo basado en problemas de satisfacibilidad booleana (SAT) que supera las limitaciones de escalabilidad, verificabilidad y control de dificultad de las tareas existentes, logrando mejoras significativas en las capacidades de razonamiento de modelos de lenguaje grandes tanto en problemas SAT como en tareas matemáticas y de programación.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

El artículo presenta FrontierCO, un benchmark de gran escala y estructura realista para evaluar solvers de optimización combinatoria basados en aprendizaje automático, revelando una brecha de rendimiento persistente frente a los métodos clásicos en instancias masivas y complejas, aunque identificando casos donde los enfoques de ML superan a los tradicionales.

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang2026-03-11🤖 cs.LG

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Este artículo presenta la primera revisión sistemática sobre la integración de modelos fundacionales en la robótica de servicio móvil, analizando cómo estas tecnologías abordan desafíos técnicos clave, habilitan aplicaciones en entornos reales y plantean consideraciones éticas y futuras para el desarrollo de robots autónomos seguros y adaptables.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

El artículo presenta SemiCP, un nuevo marco de predicción conformada semi-supervisado que utiliza puntuaciones de no conformidad basadas en la coincidencia de vecinos más cercanos (NNM) para aprovechar datos no etiquetados y reducir significativamente la brecha de cobertura cuando los datos etiquetados son escasos.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG

Pure Exploration with Infinite Answers

Este artículo presenta un marco general llamado Sticky-Sequence Track-and-Stop que logra optimalidad asintótica en problemas de exploración pura con un conjunto infinito de respuestas posibles, superando las limitaciones de los métodos existentes diseñados para casos finitos.

Riccardo Poiani, Martino Bernasconi, Andrea Celli2026-03-11🤖 cs.LG

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

El artículo presenta TSRating, un marco unificado que aprovecha el conocimiento de los modelos de lenguaje grandes (LLM) y un esquema de meta-aprendizaje para evaluar de manera eficiente y adaptable la calidad de datos de series temporales procedentes de dominios diversos.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabajo propone CORA, un método de asignación de ventajas en el aprendizaje por refuerzo multiagente cooperativo que utiliza la teoría de juegos cooperativos y el concepto de "núcleo" para asignar créditos basados en las contribuciones de las coaliciones, mejorando así la optimización de las políticas y el comportamiento coordinado.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Este artículo presenta dos nuevos algoritmos de aprendizaje por refuerzo sin modelo, Q-EarlySettled-LowCost y FedQ-EarlySettled-LowCost, que logran simultáneamente un arrepentimiento casi óptimo, costos de inicio lineales en el número de estados y acciones, y costos de cambio de política o comunicación logarítmicos para entornos de agente único y federados.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

El artículo presenta ChannelTokenFormer, un marco unificado basado en Transformers que aborda simultáneamente la dependencia entre canales, la asincronía en la muestreo y los valores faltantes para lograr un pronóstico robusto y preciso de series temporales multivariadas en escenarios del mundo real.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

Wavelet Scattering Transform and Fourier Representation for Offline Detection of Malicious Clients in Federated Learning

El artículo presenta WAFFLE, un algoritmo de detección no supervisada que utiliza representaciones comprimidas mediante la Transformada de Ondículas de Dispersión o la Transformada de Fourier en un conjunto de datos público para identificar y etiquetar a los clientes maliciosos en el Aprendizaje Federado antes del entrenamiento, mejorando así la precisión y el rendimiento del modelo sin acceder a los datos privados.

Alessandro Licciardi, Davide Leo, Davide Carbone2026-03-11🤖 cs.LG

Uncovering Social Network Activity Using Joint User and Topic Interaction

Este artículo presenta el modelo MIC (Mixture of Interacting Cascades), basado en procesos puntuales de Hawkes multidimensionales, para capturar conjuntamente las interacciones entre usuarios y cascadas de información, demostrando un rendimiento superior en la modelización y visualización de la actividad en redes sociales.

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-Furling2026-03-11🤖 cs.LG

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

El artículo presenta ConLID, un enfoque novedoso de aprendizaje contrastivo supervisado que mejora significativamente la identificación de idiomas para lenguas de recursos escasos en datos fuera del dominio, manteniendo al mismo tiempo el rendimiento en lenguas de recursos abundantes.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Este artículo establece por primera vez garantías de convergencia global lineal para un algoritmo de Mínimos Cuadrados Ponderados Iterativamente (IRLS) con regularización dinámica en la recuperación robusta de subespacios, extendiendo estos resultados teóricos a la estimación de subespacios afines y demostrando su utilidad práctica en el entrenamiento de redes neuronales.

Gilad Lerman, Kang Li, Tyler Maunu, Teng Zhang2026-03-11🤖 cs.LG

← Anterior Siguiente →