cs.LG artículos | Gist.Science

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Este artículo presenta un marco de aprendizaje profundo basado en redes convolucionales temporales que aborda la predicción de sitios de unión de factores de transcripción como un problema de clasificación multietiqueta, logrando capturar correlaciones y mecanismos cooperativos entre múltiples factores para revelar patrones de unión biológicamente significativos y nuevas relaciones.

Pietro Demurtas, Ferdinando Zanchetta, Giovanni Perini, Rita Fioresi2026-03-13🧬 q-bio

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

El artículo presenta QAvatar, un enfoque de aprendizaje por refuerzo que aborda los desafíos de la transferencia entre dominios mediante la consistencia de Bellman cruzada y un crítico híbrido, logrando así una transferencia de conocimiento fiable y eficiente en diversas tareas de robótica y locomoción.

Ming-Hong Chen, Kuan-Chen Pan, You-De Huang, Xi Liu, Ping-Chun Hsieh2026-03-13🤖 cs.LG

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Este trabajo propone un pipeline de búsqueda de arquitecturas neuronales (NAS) eficiente en recursos que utiliza modelos de lenguaje grandes (LLM) en un bucle cerrado con memoria de retroalimentación histórica para iterativamente generar y refinar arquitecturas de redes convolucionales en una sola GPU de consumo, logrando mejoras significativas en precisión sin necesidad de fine-tuning ni infraestructura en la nube.

Xiaojie Gu, Dmitry Ignatov, Radu Timofte2026-03-13🤖 cs.LG

Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design

Este artículo presenta un nuevo enfoque para el diseño óptimo de experimentos bayesianos por lotes basado en flujos de gradiente de Wasserstein, que transforma el problema de optimización en un espacio de medidas de probabilidad para obtener políticas de diseño estocásticas y algoritmos escalables capaces de explorar paisajes de optimización multimodales.

Louis Sharrock2026-03-13📊 stat

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

El artículo propone el marco MMDDPG, un enfoque de aprendizaje por refuerzo que utiliza optimización minimax con un objetivo fraccional para entrenar políticas robustas y estables frente a perturbaciones externas e incertidumbres del modelo en tareas de control continuo.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve es un sistema de servicio distribuido de código abierto diseñado para modelos multimodales "de cualquier a cualquier" que, mediante la desagregación de componentes y un modelo de ejecución eficiente, logra aumentar el rendimiento y reducir la latencia en comparación con las soluciones existentes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

El artículo presenta Hoi3DGen, un marco innovador que genera mallas 3D texturizadas de alta calidad para interacciones humano-objeto a partir de texto, superando significativamente a los métodos existentes en fidelidad y consistencia mediante el uso de datos curados con modelos de lenguaje multimodal.

Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll2026-03-13🤖 cs.LG

Automatic Generation of High-Performance RL Environments

Este artículo presenta un método automatizado y de bajo costo que utiliza agentes de IA para generar implementaciones de entornos de aprendizaje por refuerzo de alto rendimiento, logrando aceleraciones masivas y verificando su equivalencia semántica mediante validación jerárquica.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

El artículo presenta FlashMotion, un marco de entrenamiento novedoso que combina la adaptación de trayectorias y la destilación de video para generar videos con control preciso de trayectorias en pocos pasos, superando a los métodos existentes en calidad visual y consistencia de movimiento.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artículo presenta el "IsoCompute Playbook", un marco que optimiza la asignación de recursos computacionales para el aprendizaje por refuerzo de modelos de lenguaje grandes, demostrando que aumentar el número de rodajes paralelos por problema mejora la eficiencia de manera predecible y adaptándose a la dificultad del problema.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Este trabajo proporciona una caracterización cuantitativa del olvido en el entrenamiento continuo de modelos generativos, demostrando teóricamente que los objetivos de divergencia KL inversa evitan el colapso de la masa de tareas anteriores y limitan el desplazamiento de componentes mediante la superposición de distribuciones, a diferencia de la KL directa que conduce al olvido masivo.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

El artículo presenta IndexCache, una técnica que acelera la atención dispersa en modelos de lenguaje de gran contexto reutilizando los índices de capas completas en capas compartidas, logrando reducir hasta un 75% los cálculos del indexador y mejorar significativamente la velocidad de inferencia sin degradar la calidad.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li2026-03-13💬 cs.CL

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

El artículo presenta HiAP, un marco de auto-poda estocástica multi-granular que optimiza de forma continua y en una sola fase de entrenamiento Vision Transformers mediante el uso de puertas Gumbel-Sigmoid para eliminar selectivamente tanto componentes macro (cabezas de atención y bloques FFN) como micro (dimensiones intra-cabeza y neuronas), logrando arquitecturas eficientes con alto rendimiento en dispositivos de borde sin necesidad de heurísticas manuales o procesos multi-etapa.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Este trabajo propone un sistema de clasificación basado en reglas difusas para interpretar y mapear características de textos libres a los espacios de embeddings del modelo CLIP, demostrando su eficacia y analizando sus limitaciones en dominios específicos como informes clínicos y reseñas de películas.

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez2026-03-13🤖 cs.LG

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

El artículo propone que en modelos grandes y bien preentrenados, los expertos específicos de tareas son tan densos alrededor de los pesos preentrenados que un método de post-entrenamiento simple, que muestrea y ensamble perturbaciones aleatorias, puede competir eficazmente con técnicas de optimización estructurada más complejas como PPO o GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Este artículo, basado en la experiencia de Perplexity con sistemas de agentes de IA, analiza las nuevas vulnerabilidades de seguridad introducidas por estas arquitecturas, mapea sus superficies de ataque y propone un enfoque de defensa en capas junto con brechas de investigación para alinear el diseño de sistemas multiagente con los principios de gestión de riesgos del NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Temporal Straightening for Latent Planning

Este artículo propone un método llamado "enderezamiento temporal" que utiliza un regularizador de curvatura para aprender representaciones latentes más lineales, mejorando así la estabilidad y el éxito de la planificación basada en gradientes en tareas de alcanzar objetivos.

Ying Wang, Oumayma Bounou, Gaoyue Zhou, Randall Balestriero, Tim G. J. Rudner, Yann LeCun, Mengye Ren2026-03-13🤖 cs.LG

STAMP: Selective Task-Aware Mechanism for Text Privacy

El paper presenta STAMP, un nuevo marco de privacidad para texto que optimiza la relación entre privacidad y utilidad mediante la asignación selectiva de presupuestos de privacidad a nivel de token y el uso de un mecanismo polar que perturba solo la dirección de las incrustaciones preservando su magnitud y semántica.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

El artículo presenta BiGain, un marco de compresión de tokens sin entrenamiento que, mediante operadores sensibles a la frecuencia, mejora simultáneamente la precisión de clasificación y mantiene la calidad de generación en modelos de difusión acelerados.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

← Anterior Siguiente →