GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

El artículo presenta GIST, un método de selección de datos para el ajuste fino de instrucciones que supera las limitaciones de los enfoques basados en estadísticas del optimizador al alinear los gradientes de entrenamiento con un subespacio de baja dimensión derivado de gradientes de validación, logrando un rendimiento superior con una fracción mínima de almacenamiento y tiempo computacional.

Guanghui Min, Tianhao Huang, Ke Wan + 1 more2026-02-24🤖 cs.LG

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Este artículo presenta el conjunto de datos FloralSix y evalúa diversas arquitecturas YOLO para el reconocimiento de flores, demostrando que la elección del modelo y la densidad de anotación (objetos aislados frente a agrupados) son factores críticos para optimizar la precisión en aplicaciones agrícolas como el monitoreo de cultivos y la polinización robótica.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Este trabajo presenta DM4CT, un benchmark integral que evalúa y compara diez métodos basados en modelos de difusión frente a siete enfoques establecidos para la reconstrucción de tomografía computarizada, abordando desafíos prácticos como el ruido correlacionado y validando los resultados con un nuevo conjunto de datos de alta resolución obtenido en una instalación de sincrotrón.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Este estudio demuestra que el uso de tamaños de parche más pequeños (1, 2 y 4) durante el ajuste fino de Vision Transformers mejora significativamente el rendimiento en la clasificación de imágenes médicas tanto bidimensionales como tridimensionales, superando a los parches grandes y ofreciendo resultados aún mejores mediante una estrategia de ensemble.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Este trabajo presenta un enfoque novedoso para generar rostros parlantes realistas a partir de una imagen estática, un perfil de voz y un texto objetivo, utilizando un espacio latente multi-entrelazado que sincroniza las características espacio-temporales específicas de la persona para sintetizar simultáneamente el audio y el video.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Este artículo analiza sistemáticamente los efectos del acoplamiento en el rendimiento de manipuladores continuos aéreos, demostrando que, aunque los modelos desacoplados presentan discrepancias significativas en lazo abierto, un controlador de seguimiento visual basado en deslizamiento permite que el modelo desacoplado alcance una precisión de seguimiento comparable a la del modelo acoplado en lazo cerrado con un menor costo computacional.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

El artículo presenta Video-TwG, un marco de aprendizaje reforzado con un currículo de dos etapas y un nuevo algoritmo (TwG-GRPO) que permite a los modelos de lenguaje grandes para video realizar un razonamiento intercalado con anclaje bajo demanda, mejorando así la comprensión de videos largos al reducir las alucinaciones y el procesamiento redundante sin necesidad de trazas de razonamiento altamente anotadas.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

El artículo presenta HIME, un método de edición de modelos que mitiga las alucinaciones de objetos en modelos de lenguaje y visión grandes mediante la identificación y modificación selectiva de capas específicas basada en un nuevo índice de insensibilidad a alucinaciones, logrando una reducción significativa de errores sin incurrir en costes computacionales adicionales.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Este artículo propone un método de aprendizaje espectral magnético consistente en fase para la agrupación multivista no supervisada, que modela el acuerdo direccional entre vistas mediante afinidades complejas y un Laplaciano magnético hermitiano para extraer una señal espectral compartida robusta que supera las limitaciones de los enfoques existentes al manejar la discrepancia y el ruido entre vistas.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

El artículo presenta MiSCHiEF, un conjunto de datos de referencia basado en pares contrastivos de imágenes y descripciones mínimamente diferentes en los ámbitos de seguridad y cultura, diseñado para evaluar la alineación granular de modelos de visión-lingüística y revelar sus dificultades persistentes en la distinción de matices semánticos y visuales críticos.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI