cs.LG artículos | Gist.Science

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Este trabajo identifica el mecanismo "P0 Sink Circuit", que permite a los modelos de lenguaje grandes reconocer la posición cero y generar un "sumidero de atención" sin información semántica, sugiriendo además que su evolución temprana durante el entrenamiento podría servir como indicador para rastrear la convergencia del preentrenamiento.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Este trabajo demuestra que las estructuras jerárquicas en el proceso de generación de datos, modeladas mediante gramáticas context-free probabilísticas, actúan como el factor unificador que explica la emergencia de fenómenos mecanísticos diversos en los modelos de lenguaje, ofreciendo además corpora sintéticos eficientes para futuras investigaciones en interpretabilidad.

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

El artículo presenta Hierarchical Embedding Fusion (HEF), un enfoque de dos etapas que comprime representaciones de repositorios en una jerarquía de vectores densos para generar tokens pseudo-entrenados, logrando una precisión comparable a los métodos basados en fragmentos de código con una latencia significativamente reducida en la generación de código asistida por recuperación.

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

El artículo presenta FuzzingRL, un enfoque que combina pruebas de fuzzing y ajuste fino por refuerzo adversarial para generar automáticamente preguntas diseñadas para inducir errores en Modelos de Visión y Lenguaje (VLM), revelando así sus vulnerabilidades y reduciendo significativamente su precisión.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Switchable Activation Networks

El artículo presenta SWAN (Switchable Activation Networks), un marco que asigna la computación de manera dinámica mediante puertas binarias dependientes de la entrada para reducir la redundancia y mejorar la eficiencia en modelos de aprendizaje profundo sin sacrificar la precisión.

Laha Ale, Ning Zhang, Scott A. King, Pingzhi Fan2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

El artículo presenta el paradigma de agrupamiento Khatri-Rao, que extiende los métodos tradicionales como k-Means y el agrupamiento profundo para generar resúmenes de datos más concisos y precisos al modelar los centroides como interacciones de conjuntos de protocentroides.

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Este artículo demuestra que la duplicación de datos es dependiente de la escala, ya que a medida que aumenta la capacidad del modelo, los duplicados semánticos se comportan como duplicados exactos, lo que degrada el rendimiento y desvía las leyes de escalado, permitiendo así derivar nuevas leyes para predecir y corregir estos efectos.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Este artículo presenta un marco de puntuación de confianza normalizada y autoevaluación que permite detectar errores en modelos de lenguaje grandes, revelando que el ajuste fino supervisado mejora la calibración de la confianza mientras que los métodos de aprendizaje por refuerzo la degradan, y propone una solución de distilación para restaurar la fiabilidad en modelos entrenados con RL.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

El artículo presenta STAR Set Transformer, un modelo que mejora la predicción en series temporales clínicas asíncronas mediante la incorporación de sesgos de atención suaves para la localidad temporal y la afinidad entre tipos de variables, superando a los enfoques basados en cuadrículas y conjuntos de puntos en tareas de cuidados intensivos.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

LegoNet: Memory Footprint Reduction Through Block Weight Clustering

El artículo presenta LegoNet, una técnica de compresión que agrupa los pesos de la red en bloques para reducir la huella de memoria hasta 128 veces sin necesidad de reentrenamiento, cambios arquitectónicos o pérdida significativa de precisión.

Joseph Bingham, Noah Green, Saman Zonouz2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Este artículo aborda los desafíos del aprendizaje por refuerzo multiagente en la asignación de recursos para redes V2X mediante la creación de un conjunto de tareas de benchmarking controladas y datos generados en SUMO, revelando que la generalización y robustez de las políticas son los obstáculos principales y proporcionando recursos de código abierto para futuras investigaciones.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Este artículo presenta la Two-Bridge Map Suite, un nuevo entorno de código abierto para StarCraft II diseñado como un punto intermedio accesible que aísla habilidades tácticas clave sin los costos computacionales del juego completo, permitiendo así una investigación más eficiente en aprendizaje por refuerzo.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Este artículo presenta un enfoque práctico que combina la Prueba de Aleatorización Condicional (CRT) con el modelo fundacional TabPFN para generar valores p válidos en muestras finitas que evalúan la relevancia condicional de características en datos tabulares, sin necesidad de reentrenamiento ni suposiciones paramétricas.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

El artículo presenta CapTrack, un marco de evaluación centrado en capacidades que redefine el olvido en la post-entrenamiento de modelos de lenguaje grandes como una deriva conductual sistemática y revela, mediante un estudio a gran escala, que este fenómeno afecta significativamente la robustez y los comportamientos predeterminados más allá del conocimiento paramétrico, con variaciones notables según el algoritmo y la familia del modelo.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Este artículo presenta DeepScope, un sistema de aprendizaje profundo que analiza imágenes microscópicas de muestras de agua no incubadas para detectar contaminación fecal en segundos con un costo de \$0.44 por prueba, superando los requisitos de la UNICEF y logrando una precisión del 90% y un recall superior al 94%.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

El artículo demuestra que, a diferencia de los dominios verificables, las estrategias de consenso mediante múltiples muestras no mejoran la veracidad de los modelos de lenguaje en dominios no verificados debido a que los errores de los modelos están fuertemente correlacionados y la confianza autoinformada no distingue adecuadamente entre respuestas correctas e incorrectas.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

El artículo presenta OptiRoulette, un meta-optimizador estocástico que selecciona dinámicamente reglas de actualización durante el entrenamiento, logrando una convergencia hasta 5.3 veces más rápida y mejoras significativas en la precisión de prueba en comparación con AdamW en múltiples conjuntos de datos de clasificación de imágenes.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Este artículo propone una representación unificada de los modelos de difusión y el emparejamiento de flujos mediante ecuaciones lineales, revelando que la correlación entre los datos ruidosos y el objetivo predicho puede ser débil, lo cual podría afectar el proceso de aprendizaje.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Este artículo presenta el marco Annealed Co-Generation (ACG), que facilita la co-generación multivariada en aplicaciones científicas mediante el modelado progresivo de pares de variables con difusión de baja dimensión y un proceso de recocido de tres etapas, evitando así la carga computacional y el desequilibrio de datos inherentes a los modelos conjuntos de alta dimensión.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

El artículo presenta RACER, un método de enrutamiento de modelos de lenguaje grande que aborda el problema de la selección de modelos como un problema de riesgo controlado, generando conjuntos anidados de modelos calibrados para minimizar el error de enrutamiento y mejorar la precisión sin depender de supuestos distribucionales.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

← Anterior Siguiente →