IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artículo presenta el "IsoCompute Playbook", un marco que optimiza la asignación de recursos computacionales para el aprendizaje por refuerzo de modelos de lenguaje grandes, demostrando que aumentar el número de rodajes paralelos por problema mejora la eficiencia de manera predecible y adaptándose a la dificultad del problema.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Este trabajo proporciona una caracterización cuantitativa del olvido en el entrenamiento continuo de modelos generativos, demostrando teóricamente que los objetivos de divergencia KL inversa evitan el colapso de la masa de tareas anteriores y limitan el desplazamiento de componentes mediante la superposición de distribuciones, a diferencia de la KL directa que conduce al olvido masivo.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

El artículo introduce el benchmark MADQA y un protocolo de evaluación para demostrar que, aunque los agentes multimodales pueden igualar la precisión humana en la búsqueda de documentos, lo logran mediante búsquedas estocásticas y fuerza bruta en lugar de un razonamiento estratégico genuino, manteniendo una brecha significativa de rendimiento frente a un oráculo ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabajo presenta WORKSWORLD, un nuevo dominio para planificadores numéricos independientes del dominio que automatiza la planificación y programación conjunta de flujos de trabajo de datos distribuidos, permitiendo definir orígenes y destinos sin especificar el grafo completo y logrando resolver cadenas lineales de hasta 14 componentes en ocho sitios con recursos de hardware estándar.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Este artículo presenta Portfolio-CEGAR-SEQ, un algoritmo paralelo que aprovecha la potencia de los procesadores multinúcleo modernos combinando múltiples estrategias de disposición y programación de objetos para optimizar la impresión 3D secuencial, logrando un rendimiento superior y un menor uso de placas de impresión en comparación con el algoritmo CEGAR-SEQ original.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

El artículo presenta Idea-Catalyst, un marco impulsado por modelos de lenguaje que fomenta la creatividad científica interdisciplinaria al descomponer objetivos de investigación en problemas conceptuales para recuperar y sintetizar insights de dominios externos, logrando así un aumento significativo en la novedad y la profundidad de las ideas sin caer en soluciones prematuras.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Security Considerations for Artificial Intelligence Agents

Este artículo, basado en la experiencia de Perplexity con sistemas de agentes de IA, analiza las nuevas vulnerabilidades de seguridad introducidas por estas arquitecturas, mapea sus superficies de ataque y propone un enfoque de defensa en capas junto con brechas de investigación para alinear el diseño de sistemas multiagente con los principios de gestión de riesgos del NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

El artículo presenta las arquitecturas neuronales separables (SNA) como un primitivo unificado para la inteligencia predictiva y generativa que, al imponer sesgos inductivos estructurales para factorizar mapeos de alta dimensión, permite modelar eficazmente sistemas caóticos y secuencias discretas en dominios diversos como la navegación autónoma, la generación de microestructuras, la dinámica de fluidos y el procesamiento del lenguaje.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudio demuestra que, aunque los jueces de modelos de lenguaje con capacidades de razonamiento evitan el "reward hacking" y permiten entrenar políticas alineadas con un estándar de oro, estas políticas logran dicho rendimiento aprendiendo a generar salidas adversarias que engañan a otros jueces en evaluaciones estándar.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

El artículo presenta SciMDR, un marco de trabajo de síntesis y reanclaje que genera un conjunto de datos de 300.000 pares de preguntas y respuestas con cadenas de razonamiento explícitas a partir de 20.000 artículos científicos para entrenar modelos de razonamiento multimodal, logrando mejoras significativas en tareas de comprensión científica compleja.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Este artículo presenta un método libre de entrenamiento para el modelo FLUX.1 que descubre y explota un subespacio latente de color estructurado (Hue, Saturation, Lightness) en su espacio de representación VAE, permitiendo la predicción y el control preciso de los colores en imágenes generadas mediante manipulación matemática directa.

Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata2026-03-13🤖 cs.LG

Explainability of Text Processing and Retrieval Methods: A Survey

Este artículo ofrece una amplia revisión de las investigaciones sobre la explicabilidad e interpretabilidad de los métodos de procesamiento del lenguaje natural y recuperación de información, abarcando desde representaciones de palabras y modelos de atención hasta transformadores y sistemas de clasificación de documentos, y concluye sugiriendo direcciones futuras para la investigación en este campo.

Sourav Saha, Debapriyo Majumdar, Mandar Mitra2026-03-12💬 cs.CL