Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Este artículo propone XSAM, una implementación mejorada y más fiel de la Minimización Consciente de la Agudeza (SAM) que ofrece una interpretación intuitiva de su funcionamiento y supera sus limitaciones actuales mediante una estimación explícita de la dirección del máximo y un espacio de búsqueda optimizado, logrando un rendimiento superior con un costo computacional insignificante.

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

El artículo presenta \texttt{InFusionLayer}, una herramienta de código abierto en Python que implementa el Análisis de Fusión Combinatoria (CFA) mediante funciones de característica rango-puntuación y diversidad cognitiva para crear arquitecturas de aprendizaje en conjunto que mejoran el rendimiento en problemas de clasificación multiclase dentro de flujos de trabajo de PyTorch, TensorFlow y Scikit-learn.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

El artículo propone FlowSem-MAE, un paradigma de preentrenamiento tabular nativo de protocolos que supera las limitaciones de los enfoques basados en secuencias al preservar la semántica de los campos definidos por el protocolo mediante unidades semánticas de flujo (FSU), logrando una clasificación superior de tráfico cifrado con la mitad de datos etiquetados.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Este artículo presenta los AIBOMs (Facturas de Materiales de Inteligencia Artificial), una extensión de las SBOMs tradicionales mediante una arquitectura multiagente autónoma que captura el comportamiento en tiempo real y la deriva del entorno para generar afirmaciones de explotabilidad contextualizadas y reproducibles, mejorando así la seguridad de la cadena de suministro de software.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan Atefi2026-03-12🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Este artículo de posición enmarca la memoria de los sistemas multiagente como un problema de arquitectura informática, proponiendo una jerarquía de tres capas y destacando la consistencia de la memoria como el desafío crítico más urgente para garantizar sistemas escalables y fiables.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen Zhao2026-03-12🤖 cs.AI

The Epistemic Support-Point Filter: Jaynesian Maximum Entropy Meets Popperian Falsification

Este artículo presenta el Filtro de Punto de Soporte Epistémico (ESPF), un método óptimo único que sintetiza la máxima entropía de Jaynes y la falsificación de Popper para minimizar la ignorancia epistémica en el peor de los casos, demostrando su superioridad sobre los filtros bayesianos y su recuperación del filtro de Kalman en el límite gaussiano mediante validación numérica en seguimiento orbital.

Moriba Kemessia Jah2026-03-12🔢 math

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

El artículo presenta HTMuon, un optimizador que mejora el entrenamiento de modelos de lenguaje grandes al corregir la supresión de espectros de pesos de cola pesada inherente a Muon mediante una corrección espectral basada en la teoría de auto-regularización de colas pesadas, logrando así un mejor rendimiento en preentrenamiento y clasificación de imágenes.

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

El artículo presenta ADVERSA, un marco de red-teaming automatizado que evalúa la degradación progresiva de las defensas de seguridad en modelos de lenguaje grandes mediante interacciones multi-turno, revelando que los jailbreaks exitosos tienden a ocurrir en las primeras rondas y destacando la importancia de medir la fiabilidad de los jueces y los sesgos de los atacantes.

Harry Owiredu-Ashley2026-03-12🤖 cs.AI

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Este estudio analiza el rendimiento de los modelos de lenguaje grandes (LLM) en la generación de parches de seguridad para vulnerabilidades Java, revelando que, aunque preservan la funcionalidad, sufre un alto índice de fracaso debido a malentendidos semánticos que comprometen la seguridad, lo que subraya la necesidad de validación rigurosa antes de su despliegue.

Amir Al-Maamari2026-03-12🤖 cs.AI

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

El artículo presenta KernelSkill, un marco de trabajo multiagente que mejora la optimización de kernels de GPU mediante el uso de habilidades de expertos guiadas por conocimiento y una arquitectura de memoria dual, logrando aceleraciones significativas y una tasa de éxito del 100% en comparación con métodos anteriores basados en LLM.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

El artículo presenta ES-dLLM, un marco de inferencia sin entrenamiento que acelera los modelos de difusión de lenguaje grande (dLLM) mediante el salto temprano de tokens en capas iniciales basado en la variación de representaciones intermedias y puntuaciones de confianza, logrando aceleraciones de hasta 16,8 veces sin comprometer la calidad de generación.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

Execution Is the New Attack Surface: Survivability-Aware Agentic Crypto Trading with OpenClaw-Style Local Executors

El artículo propone un estándar de ejecución consciente de la supervivencia (SAE) para sistemas de trading criptográfico con agentes tipo OpenClaw, que mitiga los riesgos de ejecución no autorizada mediante invariantes de última milla y métricas de brecha de delegación, logrando reducciones drásticas en la pérdida máxima y el riesgo de cola en pruebas con datos reales de Binance.

Ailiya Borjigin, Igor Stadnyk, Ben Bilski, Serhii Hovorov, Sofiia Pidturkina2026-03-12🤖 cs.AI