Test-Time Computing for Referring Multimodal Large Language Models

El artículo presenta ControlMLLM++, un marco de adaptación en tiempo de prueba que inyecta marcadores visuales aprendibles en modelos multimodales congelados para habilitar el razonamiento visual de región sin reentrenamiento, optimizando tokens latentes mediante una función de energía específica de la tarea e incorporando estrategias mejoradas de optimización y desviación de sesgos en los prompts.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

El artículo presenta el Enmascaramiento Relacional de Características (RFC), un marco novedoso que acelera los Transformadores de Difusión (DiT) mejorando la precisión de la predicción de características mediante el aprovechamiento de la correlación entre las entradas y salidas, superando así las limitaciones de los métodos de extrapolación temporal existentes.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG

HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

El artículo presenta HOCA-Bench, un nuevo benchmark que evalúa la capacidad de los modelos de lenguaje visual para predecir el mundo físico mediante la detección de anomalías ontológicas y causales, revelando que, aunque los modelos actuales reconocen bien las violaciones estáticas, muestran una deficiencia significativa en el razonamiento sobre mecanismos físicos dinámicos.

Chang Liu, Yunfan Ye, Qingyang Zhou + 5 more2026-02-24💻 cs

Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Este estudio presenta un pipeline escalable basado en imágenes satelitales de PlanetScope y aprendizaje profundo que supera a los métodos tradicionales para detectar sitios arqueológicos saqueados en Afganistán, logrando una puntuación F1 de 0,926 mediante el uso de redes neuronales convolucionales preentrenadas con ImageNet y máscaras espaciales.

Girmaw Abebe Tadesse, Titien Bartette, Andrew Hassanali + 7 more2026-02-24🤖 cs.AI