CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

El artículo presenta CroSTAta, un transformador que utiliza un mecanismo de atención a transiciones de estado cruzadas para mejorar la robustez y el rendimiento en la manipulación robótica al modelar explícitamente patrones temporales como fallos y recuperaciones, superando significativamente a los métodos de atención estándar y redes recurrentes.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Este estudio presenta un flujo de trabajo automatizado basado en agentes de modelos de lenguaje grande que extrae y curó la base de datos de termoelectricidad más grande hasta la fecha, con más de 27,000 registros de propiedades estructurales y de rendimiento obtenidos de 10,000 artículos científicos, facilitando así el descubrimiento de materiales a gran escala.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

El artículo presenta DialTree, un marco de aprendizaje por refuerzo basado en árboles que descubre autónomamente estrategias de ataque adversarial multi-turno más efectivas, superando significativamente a los métodos existentes al explorar dinámicas conversacionales complejas sin necesidad de datos curados manualmente.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

Este artículo presenta un método escalable y regularizado para el cálculo de barycentros de Wasserstein mediante flujos de gradiente, que supera las limitaciones de los enfoques existentes al permitir el uso de mini-lotes, incorporar regularización modular e integrar información supervisada, logrando así un nuevo estado del arte en tareas de adaptación de dominio.

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

El artículo presenta NANOMIND, un marco de diseño conjunto hardware-software que optimiza la inferencia de modelos multimodales grandes en dispositivos pequeños y autónomos mediante la ejecución modular en aceleradores heterogéneos, logrando una eficiencia energética superior y una autonomía de casi 21 horas sin conexión a red.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Este trabajo propone un plugin ligero y sin reentrenamiento que identifica y reequilibra las cabezas de atención orientadas a la percepción y al razonamiento en modelos de razonamiento multimodal, reduciendo así las alucinaciones y mejorando la consistencia en múltiples benchmarks con un coste computacional mínimo.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

DropVLA es un ataque de puerta trasera a nivel de acción que, mediante la inyección de datos enriquecidos con desencadenantes visuales, logra forzar la ejecución de primitivas de acción específicas en modelos de visión-idioma-acción con una tasa de éxito cercana al 100% y una retención de tareas limpias casi perfecta, incluso en entornos físicos reales.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Este trabajo presenta un marco de planificación de contacto para humanoides que combina un modelo de mundo aprendido en espacio latente con control predictivo basado en muestreo y una función de valor sustituta, logrando una planificación de contacto robusta y eficiente en tiempo real a partir de datos offline sin demostraciones.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Este artículo presenta un marco de aprendizaje gráfico adaptativo que detecta anomalías financieras mediante la descomposición de mecanismos específicos (como choques de precios o crisis de liquidez) y la asignación de pesos interpretables para identificar las causas subyacentes, logrando una detección temprana superior y una guía accionable para la gestión de riesgos.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este trabajo aborda el desafío de la entrelazamiento modal en el aprendizaje continuo de segmentación audio-visual mediante la propuesta de una nueva tarea (CAVS) y un marco de ensayo multimodal basado en colisiones (CMR) que, mediante estrategias de selección y frecuencia de muestras, mitiga la deriva semántica y la confusión por co-ocurrencia, superando significativamente a los métodos unimodales.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Este trabajo propone un marco de razonamiento basado en la Optimización de Políticas Relativa a Permutaciones (PRPO) que, al codificar la invariancia a la permutación de columnas como un prior estructural, desbloquea la capacidad de razonamiento numérico de los modelos de lenguaje grandes para la predicción en tablas, logrando un rendimiento superior incluso frente a modelos mucho más grandes en escenarios de cero disparos.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

El artículo presenta Dream4Drive, un marco de generación de datos sintéticos que utiliza modelos de mundo de conducción y activos 3D para crear casos extremos multivista fotorealistas, demostrando así una mejora significativa en el rendimiento de los modelos de percepción para la conducción autónoma.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

El artículo presenta HCLA, un sistema multiagente centrado en el humano que utiliza inteligencia artificial conversacional para transformar la detección de transacciones anómalas en activos digitales mediante un proceso de razonamiento trazable y justificable que prioriza la rendición de cuentas y la transparencia en el cumplimiento normativo.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

El artículo presenta LagMemo, un sistema de navegación que utiliza un memoria de 3D Gaussian Splatting con lenguaje para lograr una localización de objetivos de vocabulario abierto y multi-objetivo mediante consultas espaciales y semánticas robustas, superando a los métodos actuales y validado mediante un nuevo conjunto de datos llamado GOAT-Core.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs