Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Los autores proponen un marco de poda de tokens ligero que preserva el índice, el cual elimina las regiones de fondo no informativas de las imágenes de documentos antes de procesarlas en modelos de visión y lenguaje, logrando así reducir significativamente los costos computacionales sin comprometer la precisión en la comprensión de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

Performance Assessment Strategies for Generative AI Applications in Healthcare

El artículo examina las estrategias actuales para evaluar el rendimiento de las aplicaciones de inteligencia artificial generativa en el sector sanitario, destacando las limitaciones de los benchmarks cuantitativos tradicionales y la creciente importancia de métodos que integran la experiencia humana y modelos computacionales eficientes para garantizar la generalización en entornos clínicos reales.

Victor Garcia, Mariia Sidulova, Aldo Badano2026-03-05🤖 cs.AI

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Este trabajo presenta un enfoque basado en agentes de IA que utiliza relaciones metamórficas de alto orden para generar pruebas automatizadas y sintetizar código ejecutable a partir de leyes fiscales, demostrando que modelos más pequeños pueden superar a los modelos de vanguardia en la creación de software legalmente crítico y fiable.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Este artículo presenta StaR, un método de razonamiento multimodal que mejora significativamente la precisión de los agentes al interactuar con interfaces gráficas mediante la identificación y gestión efectiva de los estados de los interruptores (toggles), superando las limitaciones actuales en la ejecución de instrucciones de control binario.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Bridging Computational Social Science and Deep Learning: Cultural Dissemination-Inspired Graph Neural Networks

El artículo presenta AxelGNN, una arquitectura de redes neuronales gráficas inspirada en el modelo de diseminación cultural de Axelrod que supera los desafíos de la sobre-suavización y la agregación monolítica mediante interacciones gateadas por similitud, copia de características por segmentos y polarización global, logrando un rendimiento superior y eficiente en grafos tanto homófilos como heterófilos.

Asela Hevapathige2026-03-05🤖 cs.AI

Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

Este artículo presenta WebRRSBench, un nuevo benchmark integral que evalúa la capacidad de razonamiento, robustez y seguridad de los modelos de lenguaje multimodal (MLLM) en la comprensión web, revelando mediante la prueba de 11 modelos que estos aún enfrentan desafíos significativos en el razonamiento composicional, la adaptación a perturbaciones visuales y la identificación de acciones críticas para la seguridad.

Junliang Liu, Jingyu Xiao, Wenxin Tang + 5 more2026-03-05🤖 cs.AI

Uni-NTFM: A Unified Foundation Model for EEG Signal Representation Learning

El artículo presenta Uni-NTFM, un modelo fundacional unificado para señales EEG que, inspirado en mecanismos neurobiológicos como la codificación esparsa y la topología cortical, integra proyección de características heterogéneas, incrustación topológica y una red Transformer de expertos mixtos para superar a los modelos existentes en diversas tareas de decodificación cerebral.

Zhisheng Chen, Yingwei Zhang, Qizhen Lan + 7 more2026-03-05🤖 cs.AI

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

El artículo presenta Vision-Zero, un marco de auto-juego multiagente libre de etiquetas que entrena modelos de visión y lenguaje mediante juegos estratégicos generados a partir de imágenes arbitrarias y una optimización iterativa de políticas, logrando mejoras sostenibles y un rendimiento superior en diversas tareas de razonamiento visual sin depender de verificación humana.

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

El artículo presenta ELMUR, una arquitectura de transformador con memoria externa estructurada que supera las limitaciones de los modelos actuales al permitir a los agentes robóticos retener y aprovechar dependencias a largo plazo en entornos parcialmente observables, logrando un rendimiento superior en tareas de manipulación y navegación de horizonte extenso.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

SHE: Stepwise Hybrid Examination Reinforcement Learning Framework for E-commerce Search Relevance

El marco SHE introduce un enfoque de aprendizaje por refuerzo híbrido con optimización de recompensas paso a paso (SRPO) y estrategias de filtrado de datos y aprendizaje curricular para superar las limitaciones de generalización y consistencia lógica en la predicción de relevancia de búsqueda en el comercio electrónico, logrando un rendimiento superior y mayor interpretabilidad en comparación con métodos existentes.

Pengkun Jiao, Yiming Jin, Jianhui Yang + 6 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

El artículo presenta LadderSym, un modelo Transformer multimodal que mejora significativamente la detección de errores en la práctica musical al utilizar un codificador de doble flujo con alineación entre corrientes y representaciones simbólicas como prompts, superando así las limitaciones de los métodos anteriores en conjuntos de datos como MAESTRO-E y CocoChorales-E.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI