cs.LG artículos | Gist.Science

Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design

Este artículo presenta un nuevo enfoque para el diseño óptimo de experimentos bayesianos por lotes basado en flujos de gradiente de Wasserstein, que transforma el problema de optimización en un espacio de medidas de probabilidad para obtener políticas de diseño estocásticas y algoritmos escalables capaces de explorar paisajes de optimización multimodales.

Louis Sharrock2026-03-13📊 stat

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

El artículo propone el marco MMDDPG, un enfoque de aprendizaje por refuerzo que utiliza optimización minimax con un objetivo fraccional para entrenar políticas robustas y estables frente a perturbaciones externas e incertidumbres del modelo en tareas de control continuo.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve es un sistema de servicio distribuido de código abierto diseñado para modelos multimodales "de cualquier a cualquier" que, mediante la desagregación de componentes y un modelo de ejecución eficiente, logra aumentar el rendimiento y reducir la latencia en comparación con las soluciones existentes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

El artículo presenta Hoi3DGen, un marco innovador que genera mallas 3D texturizadas de alta calidad para interacciones humano-objeto a partir de texto, superando significativamente a los métodos existentes en fidelidad y consistencia mediante el uso de datos curados con modelos de lenguaje multimodal.

Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll2026-03-13🤖 cs.LG

Automatic Generation of High-Performance RL Environments

Este artículo presenta un método automatizado y de bajo costo que utiliza agentes de IA para generar implementaciones de entornos de aprendizaje por refuerzo de alto rendimiento, logrando aceleraciones masivas y verificando su equivalencia semántica mediante validación jerárquica.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

El artículo presenta FlashMotion, un marco de entrenamiento novedoso que combina la adaptación de trayectorias y la destilación de video para generar videos con control preciso de trayectorias en pocos pasos, superando a los métodos existentes en calidad visual y consistencia de movimiento.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artículo presenta el "IsoCompute Playbook", un marco que optimiza la asignación de recursos computacionales para el aprendizaje por refuerzo de modelos de lenguaje grandes, demostrando que aumentar el número de rodajes paralelos por problema mejora la eficiencia de manera predecible y adaptándose a la dificultad del problema.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Este trabajo proporciona una caracterización cuantitativa del olvido en el entrenamiento continuo de modelos generativos, demostrando teóricamente que los objetivos de divergencia KL inversa evitan el colapso de la masa de tareas anteriores y limitan el desplazamiento de componentes mediante la superposición de distribuciones, a diferencia de la KL directa que conduce al olvido masivo.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

El artículo presenta IndexCache, una técnica que acelera la atención dispersa en modelos de lenguaje de gran contexto reutilizando los índices de capas completas en capas compartidas, logrando reducir hasta un 75% los cálculos del indexador y mejorar significativamente la velocidad de inferencia sin degradar la calidad.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li2026-03-13💬 cs.CL

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

El artículo presenta HiAP, un marco de auto-poda estocástica multi-granular que optimiza de forma continua y en una sola fase de entrenamiento Vision Transformers mediante el uso de puertas Gumbel-Sigmoid para eliminar selectivamente tanto componentes macro (cabezas de atención y bloques FFN) como micro (dimensiones intra-cabeza y neuronas), logrando arquitecturas eficientes con alto rendimiento en dispositivos de borde sin necesidad de heurísticas manuales o procesos multi-etapa.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Este trabajo propone un sistema de clasificación basado en reglas difusas para interpretar y mapear características de textos libres a los espacios de embeddings del modelo CLIP, demostrando su eficacia y analizando sus limitaciones en dominios específicos como informes clínicos y reseñas de películas.

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez2026-03-13🤖 cs.LG

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

El artículo propone que en modelos grandes y bien preentrenados, los expertos específicos de tareas son tan densos alrededor de los pesos preentrenados que un método de post-entrenamiento simple, que muestrea y ensamble perturbaciones aleatorias, puede competir eficazmente con técnicas de optimización estructurada más complejas como PPO o GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Este artículo, basado en la experiencia de Perplexity con sistemas de agentes de IA, analiza las nuevas vulnerabilidades de seguridad introducidas por estas arquitecturas, mapea sus superficies de ataque y propone un enfoque de defensa en capas junto con brechas de investigación para alinear el diseño de sistemas multiagente con los principios de gestión de riesgos del NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Temporal Straightening for Latent Planning

Este artículo propone un método llamado "enderezamiento temporal" que utiliza un regularizador de curvatura para aprender representaciones latentes más lineales, mejorando así la estabilidad y el éxito de la planificación basada en gradientes en tareas de alcanzar objetivos.

Ying Wang, Oumayma Bounou, Gaoyue Zhou, Randall Balestriero, Tim G. J. Rudner, Yann LeCun, Mengye Ren2026-03-13🤖 cs.LG

STAMP: Selective Task-Aware Mechanism for Text Privacy

El paper presenta STAMP, un nuevo marco de privacidad para texto que optimiza la relación entre privacidad y utilidad mediante la asignación selectiva de presupuestos de privacidad a nivel de token y el uso de un mecanismo polar que perturba solo la dirección de las incrustaciones preservando su magnitud y semántica.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

El artículo presenta BiGain, un marco de compresión de tokens sin entrenamiento que, mediante operadores sensibles a la frecuencia, mejora simultáneamente la precisión de clasificación y mantiene la calidad de generación en modelos de difusión acelerados.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

El artículo presenta las arquitecturas neuronales separables (SNA) como un primitivo unificado para la inteligencia predictiva y generativa que, al imponer sesgos inductivos estructurales para factorizar mapeos de alta dimensión, permite modelar eficazmente sistemas caóticos y secuencias discretas en dominios diversos como la navegación autónoma, la generación de microestructuras, la dinámica de fluidos y el procesamiento del lenguaje.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudio demuestra que, aunque los jueces de modelos de lenguaje con capacidades de razonamiento evitan el "reward hacking" y permiten entrenar políticas alineadas con un estándar de oro, estas políticas logran dicho rendimiento aprendiendo a generar salidas adversarias que engañan a otros jueces en evaluaciones estándar.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

El artículo presenta la afinación basada en energía (EBFT), un nuevo enfoque que optimiza las estadísticas a nivel de secuencia mediante la coincidencia de características en lugar de tokens, logrando una mayor precisión y menor entropía cruzada en tareas de codificación y traducción en comparación con los métodos tradicionales de ajuste fino y aprendizaje por refuerzo.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG

← Anterior Siguiente →