Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Este trabajo presenta un sistema para inferencia multi-agente en dispositivos de borde que persiste la memoria de atención (KV cache) de cada agente en formato cuantizado a 4 bits en disco, permitiendo su restauración directa y eliminando la necesidad de recomputación, lo que reduce el tiempo hasta el primer token hasta en 136 veces y multiplica por cuatro la cantidad de agentes que caben en la memoria disponible.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

Flowers: A Warp Drive for Neural PDE Solvers

El artículo presenta "Flowers", una arquitectura neuronal eficiente y escalable que resuelve operadores de EDPs utilizando exclusivamente deformaciones espaciales (warps) para capturar interacciones globales sin mecanismos de atención o convolución tradicionales, logrando un rendimiento superior en problemas de flujo y ondas con una fracción de los parámetros y recursos computacionales de los modelos existentes.

Till Muser, Alexandra Spitzer, Matti Lassas + 2 more2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

El artículo presenta CogGen, un modelo generativo profundo totalmente no supervisado que mejora la reconstrucción de MRI muestreado comprimido mediante un aprendizaje curricular auto-dirigido que gestiona la carga cognitiva al priorizar progresivamente los datos de baja frecuencia y alta relación señal-ruido sobre el ruido y las frecuencias altas.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Este artículo presenta la NCnet, una arquitectura clásica que exhibe comportamientos estadísticos no clásicos análogos a las desigualdades de Bell, demostrando que las correlaciones no locales surgen de la competencia de gradientes entre tareas compartidas y que la métrica SS puede servir como indicador de la dinámica de entrenamiento y el rendimiento de generalización.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este trabajo identifica y valida una nueva vulnerabilidad en los modelos de lenguaje grandes multimodales, demostrando que optimizar una función de pérdida para inducir inestabilidad numérica genera imágenes que degradan significativamente el rendimiento del modelo con perturbaciones mínimas, revelando un vector de fallo distinto a las perturbaciones adversarias tradicionales.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Este artículo propone un nuevo paradigma de aprendizaje llamado HARR (Reconstrucción y Representación de Atributos Heterogéneos) que transforma atributos numéricos y categóricos en un espacio homogéneo para aprender una métrica de distancia unificada, mejorando así la precisión y eficiencia del clustering en datos mixtos sin requerir parámetros ni garantías de convergencia.

Yiqun Zhang, Mingjie Zhao, Yizhou Chen + 2 more2026-03-06💻 cs

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

El paper presenta VSPrefill, un mecanismo de atención dispersa con indexación ligera que explota patrones estructurales verticales y diagonales para lograr una complejidad lineal durante la fase de prellenado, logrando una aceleración de 4.95x en contextos de 128k manteniendo el 98.35% de la precisión de la atención completa sin modificar los parámetros del modelo base.

Chen Guanzhong2026-03-06💻 cs

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

El artículo presenta MAD-SmaAt-GNet, una arquitectura de red neuronal multimodal que mejora la predicción de precipitaciones a corto plazo al combinar un diseño ligero basado en SmaAt-UNet con un codificador adicional para múltiples variables meteorológicas y un componente de advección basado en física, logrando una reducción del 8,9% en el error cuadrático medio frente al modelo base.

Samuel van Wonderen, Siamak Mehrkanoon2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

El marco Act-Observe-Rewrite (AOR) demuestra que un agente multimodal basado en un modelo de lenguaje puede aprender a manipular objetos físicos mediante la síntesis y reescritura iterativa de código de control ejecutable guiado por observaciones visuales, logrando altas tasas de éxito en tareas robóticas sin necesidad de demostraciones, ingeniería de recompensas o actualizaciones de gradiente.

Vaishak Kumar2026-03-06💻 cs