Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Este artículo analiza sistemáticamente los efectos del acoplamiento en el rendimiento de manipuladores continuos aéreos, demostrando que, aunque los modelos desacoplados presentan discrepancias significativas en lazo abierto, un controlador de seguimiento visual basado en deslizamiento permite que el modelo desacoplado alcance una precisión de seguimiento comparable a la del modelo acoplado en lazo cerrado con un menor costo computacional.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

El artículo presenta Video-TwG, un marco de aprendizaje reforzado con un currículo de dos etapas y un nuevo algoritmo (TwG-GRPO) que permite a los modelos de lenguaje grandes para video realizar un razonamiento intercalado con anclaje bajo demanda, mejorando así la comprensión de videos largos al reducir las alucinaciones y el procesamiento redundante sin necesidad de trazas de razonamiento altamente anotadas.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

El artículo presenta HIME, un método de edición de modelos que mitiga las alucinaciones de objetos en modelos de lenguaje y visión grandes mediante la identificación y modificación selectiva de capas específicas basada en un nuevo índice de insensibilidad a alucinaciones, logrando una reducción significativa de errores sin incurrir en costes computacionales adicionales.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Este artículo propone un método de aprendizaje espectral magnético consistente en fase para la agrupación multivista no supervisada, que modela el acuerdo direccional entre vistas mediante afinidades complejas y un Laplaciano magnético hermitiano para extraer una señal espectral compartida robusta que supera las limitaciones de los enfoques existentes al manejar la discrepancia y el ruido entre vistas.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

El artículo presenta MiSCHiEF, un conjunto de datos de referencia basado en pares contrastivos de imágenes y descripciones mínimamente diferentes en los ámbitos de seguridad y cultura, diseñado para evaluar la alineación granular de modelos de visión-lingüística y revelar sus dificultades persistentes en la distinción de matices semánticos y visuales críticos.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

El paper presenta EditedID, un marco de alineación, desentrelado y entrelado sin entrenamiento que supera las limitaciones actuales de los modelos de edición multimodal al garantizar una restauración facial robusta y consistente con la identidad original y los elementos editados mediante estrategias de mezcla adaptativa, resolución híbrida y mecanismos de compuerta atencional.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs

Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

El artículo presenta Person2Drive, un marco integral y un benchmark de código abierto que aborda los desafíos de la conducción autónoma personalizada de extremo a extremo mediante la generación de datos diversificados, métricas cuantitativas para evaluar estilos de conducción individuales y un modelo de recompensa que adapta los sistemas a los comportamientos específicos de cada usuario.

Xiaoru Dong, Ruiqin Li, Xiao Han + 7 more2026-02-24💻 cs

Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

Este trabajo propone ZS-MIL, un método que utiliza las incrustaciones de texto de modelos de visión-lingüística preentrenados para inicializar los clasificadores en el aprendizaje de múltiples instancias, mejorando así la adaptación con pocos ejemplos en la clasificación de imágenes de histopatología en comparación con las inicializaciones aleatorias.

Pablo Meseguer, Rocío del Amor, Valery Naranjo2026-02-24💻 cs