Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve es un sistema de servicio distribuido de código abierto diseñado para modelos multimodales "de cualquier a cualquier" que, mediante la desagregación de componentes y un modelo de ejecución eficiente, logra aumentar el rendimiento y reducir la latencia en comparación con las soluciones existentes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artículo presenta el "IsoCompute Playbook", un marco que optimiza la asignación de recursos computacionales para el aprendizaje por refuerzo de modelos de lenguaje grandes, demostrando que aumentar el número de rodajes paralelos por problema mejora la eficiencia de manera predecible y adaptándose a la dificultad del problema.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Este trabajo proporciona una caracterización cuantitativa del olvido en el entrenamiento continuo de modelos generativos, demostrando teóricamente que los objetivos de divergencia KL inversa evitan el colapso de la masa de tareas anteriores y limitan el desplazamiento de componentes mediante la superposición de distribuciones, a diferencia de la KL directa que conduce al olvido masivo.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

El artículo presenta IndexCache, una técnica que acelera la atención dispersa en modelos de lenguaje de gran contexto reutilizando los índices de capas completas en capas compartidas, logrando reducir hasta un 75% los cálculos del indexador y mejorar significativamente la velocidad de inferencia sin degradar la calidad.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li2026-03-13💬 cs.CL

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

El artículo presenta HiAP, un marco de auto-poda estocástica multi-granular que optimiza de forma continua y en una sola fase de entrenamiento Vision Transformers mediante el uso de puertas Gumbel-Sigmoid para eliminar selectivamente tanto componentes macro (cabezas de atención y bloques FFN) como micro (dimensiones intra-cabeza y neuronas), logrando arquitecturas eficientes con alto rendimiento en dispositivos de borde sin necesidad de heurísticas manuales o procesos multi-etapa.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Este artículo, basado en la experiencia de Perplexity con sistemas de agentes de IA, analiza las nuevas vulnerabilidades de seguridad introducidas por estas arquitecturas, mapea sus superficies de ataque y propone un enfoque de defensa en capas junto con brechas de investigación para alinear el diseño de sistemas multiagente con los principios de gestión de riesgos del NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

El artículo presenta las arquitecturas neuronales separables (SNA) como un primitivo unificado para la inteligencia predictiva y generativa que, al imponer sesgos inductivos estructurales para factorizar mapeos de alta dimensión, permite modelar eficazmente sistemas caóticos y secuencias discretas en dominios diversos como la navegación autónoma, la generación de microestructuras, la dinámica de fluidos y el procesamiento del lenguaje.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudio demuestra que, aunque los jueces de modelos de lenguaje con capacidades de razonamiento evitan el "reward hacking" y permiten entrenar políticas alineadas con un estándar de oro, estas políticas logran dicho rendimiento aprendiendo a generar salidas adversarias que engañan a otros jueces en evaluaciones estándar.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

El artículo presenta la afinación basada en energía (EBFT), un nuevo enfoque que optimiza las estadísticas a nivel de secuencia mediante la coincidencia de características en lugar de tokens, logrando una mayor precisión y menor entropía cruzada en tareas de codificación y traducción en comparación con los métodos tradicionales de ajuste fino y aprendizaje por refuerzo.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG