GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

El artículo presenta GTR-Turbo, un método eficiente que utiliza un modelo maestro "gratuito" generado mediante la fusión de checkpoints durante el entrenamiento por refuerzo para mejorar el rendimiento de los agentes VLM, reducir costos computacionales y eliminar la dependencia de modelos propietarios costosos.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

El artículo presenta el PBT (Pretrained Battery Transformer), un modelo fundacional que utiliza capas de expertos codificados con conocimiento de baterías para predecir universalmente la vida útil de baterías de litio, sodio y zinc con un rendimiento superior al estado del arte, superando los desafíos de escasez y heterogeneidad de datos.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Este estudio presenta un marco basado en YOLOv8 y Finer-CAM que, al analizar proyecciones 2D de nubes de puntos TLS, logra una precisión del 96% en la clasificación de siete especies arbóreas europeas y demuestra que el modelo utiliza principalmente las copas para su identificación, mientras que los tallos son más determinantes para especies como el fresno, el pino silvestre y el douglas, mejorando así la interpretabilidad y confianza en las predicciones del modelo.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

Este artículo demuestra que los transformadores pequeños, en entornos controlados denominados "túneles de viento bayesianos", realizan inferencia bayesiana con alta precisión mediante un mecanismo geométrico específico donde las corrientes residuales almacenan creencias y la atención gestiona el enrutamiento, superando así a las arquitecturas MLP y revelando la base geométrica del razonamiento en modelos grandes.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artículo demuestra que el entrenamiento por entropía cruzada en los transformadores genera dinámicas de gradiente acopladas que esculpen manifiestos bayesianos de baja dimensión, unificando así la optimización, la geometría interna y el razonamiento probabilístico en contexto mediante un mecanismo de enrutamiento basado en ventajas y actualizaciones de valores ponderadas por responsabilidad.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Over-Searching in Search-Augmented Large Language Models

Este trabajo analiza el problema del "sobre-búsqueda" en modelos de lenguaje grandes aumentados con búsqueda, proponiendo la métrica Tokens por Corrección (TPC) para cuantificar este fenómeno, identificando sus causas y efectos negativos, y presentando estrategias de mitigación junto con el conjunto de datos OverSearchQA para fomentar investigaciones futuras.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Este estudio presenta una arquitectura multi-tenant segura combinada con un mecanismo de "destrucción tras el uso" para entornos de LLM empresariales, logrando aislar instancias y eliminar contextos efímeros para prevenir eficazmente la fuga de datos mediante una alta tasa de éxito en pruebas de defensa contra ataques de filtración y persistencia.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Este artículo presenta un ataque de denegación de servicio económico y sigiloso para agentes de LLM que, mediante la manipulación de llamadas a herramientas bajo el Protocolo de Contexto del Modelo (MCP) y optimizado con Búsqueda de Árbol Monte Carlo, genera cadenas de interacción prolongadas que multiplican drásticamente los costos y el consumo de recursos sin ser detectado por filtros convencionales.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Este artículo presenta un agente de aprendizaje por refuerzo para el videojuego Dark Souls III que, mediante un gráfico de habilidades dirigido y un currículo jerárquico, descompone el control en cinco habilidades reutilizables, logrando una mayor eficiencia de muestras y permitiendo la adaptación selectiva a cambios ambientales sin necesidad de reentrenar todo el sistema.

Ali Najar2026-03-12🤖 cs.AI

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Este artículo presenta EverMemBench, el primer benchmark diseñado para evaluar la memoria a largo plazo en diálogos colaborativos multiusuario, revelando las limitaciones actuales de los sistemas LLM en tareas de razonamiento multi-hop, comprensión temporal y conciencia de memoria en entornos complejos y realistas.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

El artículo presenta DEFT, un generador de trayectorias basado en difusión que permite a los robots completar tareas de manipulación de manera segura y efectiva incluso bajo condiciones de fallo en la actuación, superando significativamente a los métodos tradicionales en simulación y en el mundo real.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Este artículo presenta FGO, un algoritmo de aprendizaje por refuerzo que comprime eficazmente el razonamiento de cadena de pensamiento en modelos de lenguaje grandes mediante la subdivisión y ponderación de respuestas, resolviendo al mismo tiempo las limitaciones de ineficiencia en el uso de datos y colapso de entropía del método GRPO sin degradar el rendimiento.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}} for Unified Multimodal Large Language Model

El artículo presenta UniWeTok, un tokenizador binario unificado con un código masivo de $2^{128}$ y una arquitectura híbrida que logra un rendimiento de vanguardia en la comprensión multimodal, generación y edición de imágenes con una eficiencia computacional significativamente superior a los métodos existentes.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

El artículo presenta TikArt, un agente multimodal que estabiliza el razonamiento visual de alta precisión mediante un ciclo de pensamiento y apertura (Zoom y Segmentación) guiado por aprendizaje por refuerzo, el cual transforma la adquisición secuencial de evidencia local en memoria lingüística interpretable para superar las limitaciones de los modelos actuales.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

El artículo presenta GOT-JEPA, un marco de preentrenamiento predictivo que adapta modelos de seguimiento mediante una arquitectura de incrustación conjunta para mejorar la generalización y el manejo de oclusiones, complementado por OccuSolver para refinar la estimación de visibilidad y los patrones de oclusión.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI