Few-Shot Continual Learning for 3D Brain MRI with Frozen Foundation Models

Este trabajo propone un enfoque de aprendizaje continuo con pocos ejemplos para imágenes de resonancia magnética cerebral 3D que combina un modelo base preentrenado congelado con adaptadores LoRA específicos por tarea, logrando un rendimiento equilibrado en segmentación de tumores y estimación de edad sin olvidar tareas anteriores y con menos del 0,1% de parámetros entrenables.

Chi-Sheng Chen, Xinyu Zhang, Guan-Ying Chen + 3 more2026-03-02⚡ eess

Automated Dose-Based Anatomic Region Classification of Radiotherapy Treatment for Big Data Applications

Este estudio presenta un software automatizado que clasifica los planes de radioterapia en seis regiones anatómicas mediante el análisis de la superposición de dosis con segmentaciones de aprendizaje profundo, logrando una precisión del 95% y ofreciendo una solución escalable para la curación de grandes bases de datos multicéntricas sin depender de metadatos inconsistentes.

Justin Hink, Yasin Abdulkadir, Jack Neylon + 1 more2026-03-02🔬 physics

LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

El artículo presenta LE-NeuS, un marco neuro-simbólico eficiente en latencia para la comprensión de videos largos que reduce drásticamente la sobrecarga de inferencia mediante muestreo adaptativo guiado por CLIP y detección de proposiciones por lotes, logrando una reducción significativa en el tiempo de respuesta mientras mantiene mejoras de precisión en consultas temporales complejas.

Shawn Liang, Sahil Shah, Chengwei Zhou + 5 more2026-03-02💻 cs

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

El artículo presenta HDFLIM, un marco que logra la alineación cruzada entre modelos de visión y lenguaje preentrenados y congelados mediante proyecciones en un espacio hiperdimensional y operaciones simbólicas ligeras, permitiendo la generación de descripciones de imágenes eficientes y semánticamente fundamentadas sin necesidad de ajuste fino de parámetros.

Abhishek Dalvi, Vasant Honavar2026-03-02🤖 cs.AI

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Este artículo presenta DLEBench, el primer benchmark diseñado para evaluar la capacidad de los modelos de edición de imágenes basados en instrucciones para modificar objetos a pequeña escala, identificando mediante un protocolo de evaluación riguroso y un marco de doble modo las brechas de rendimiento significativas en esta tarea crítica.

Shibo Hong, Boxian Ai, Jun Kuang + 5 more2026-03-02🤖 cs.AI

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

Este artículo presenta Semantically Decoupled Latent Steering (SDLS), un marco de control en tiempo de inferencia que elimina las alucinaciones de comparación previa en la generación de informes radiológicos mediante la descomposición semántica y la ortogonalización geométrica, mejorando significativamente la fidelidad clínica sin requerir reentrenamiento.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop es un marco innovador que optimiza la eficiencia de los Modelos de Lenguaje Multimodal (MLLM) mediante la reducción jerárquica de tokens visuales, combinando inyección tardía, poda piramidal cóncava y salida temprana para eliminar el 90% de los tokens sin sacrificar el rendimiento y acelerando el entrenamiento en 1,72 veces.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

El artículo presenta EgoGraph, un marco de construcción de grafos de conocimiento dinámico y sin entrenamiento diseñado para superar las limitaciones de los modelos actuales mediante la representación semántica unificada y el razonamiento temporal de dependencias a largo plazo en videos egocéntricos ultra-largos, logrando un rendimiento superior en benchmarks de comprensión de video.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Este trabajo introduce VGUBench para demostrar que, aunque los Modelos de Lenguaje Multimodales Unificados (U-MLLMs) poseen capacidades sólidas de razonamiento textual y generación visual básica, sufren un colapso semántico al intentar generar respuestas visuales que reflejen consistentemente su razonamiento, revelando una desconexión crítica entre la comprensión y la generación multimodal.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs