HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop es un marco innovador que optimiza la eficiencia de los Modelos de Lenguaje Multimodal (MLLM) mediante la reducción jerárquica de tokens visuales, combinando inyección tardía, poda piramidal cóncava y salida temprana para eliminar el 90% de los tokens sin sacrificar el rendimiento y acelerando el entrenamiento en 1,72 veces.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

El artículo presenta EgoGraph, un marco de construcción de grafos de conocimiento dinámico y sin entrenamiento diseñado para superar las limitaciones de los modelos actuales mediante la representación semántica unificada y el razonamiento temporal de dependencias a largo plazo en videos egocéntricos ultra-largos, logrando un rendimiento superior en benchmarks de comprensión de video.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Este trabajo introduce VGUBench para demostrar que, aunque los Modelos de Lenguaje Multimodales Unificados (U-MLLMs) poseen capacidades sólidas de razonamiento textual y generación visual básica, sufren un colapso semántico al intentar generar respuestas visuales que reflejen consistentemente su razonamiento, revelando una desconexión crítica entre la comprensión y la generación multimodal.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Este estudio revela que, aunque los Modelos Visión-Lenguaje (VLM) pueden reconocer texto con alta precisión, sus patrones de decisión para resolver ambigüedades en caracteres japoneses difieren cualitativamente de los humanos, mostrando que el contexto puede mejorar la alineación en ciertas condiciones pero no elimina las discrepancias fundamentales en la percepción de la forma.

Daichi Haraguchi2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

Este trabajo presenta OPTIAGENT, un marco de agentes impulsado por física que utiliza modelos de lenguaje grandes optimizados mediante una recompensa lexicográfica óptica y un conjunto de datos especializado para automatizar el diseño de sistemas lentes, permitiendo a usuarios sin formación específica crear configuraciones ópticas funcionales con un rendimiento superior a los métodos tradicionales.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

El artículo presenta VideoPulse, un conjunto de datos y una metodología de aprendizaje profundo que permite estimar de forma precisa y sin contacto la frecuencia cardíaca y la saturación de oxígeno en neonatos a partir de videos faciales, ofreciendo una alternativa no invasiva y de bajo costo para el monitoreo en unidades de cuidados intensivos.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

El artículo presenta BiM-GeoAttn-Net, un marco de aprendizaje profundo ligero que combina modelado de estado espacial bidireccional de tiempo lineal con atención consciente de la geometría para lograr una segmentación tridimensional precisa y coherente de las diseciones aórticas en angiografías por tomografía computarizada.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

El artículo presenta Sea², un marco de adaptación visual no supervisada que utiliza un agente guiado por un modelo de lenguaje visual personalizado para controlar la pose y seleccionar vistas informativas, mejorando significativamente el rendimiento de modelos de percepción preentrenados en entornos interiores sin necesidad de reentrenarlos ni usar etiquetas.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI