Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

Este trabajo presenta un marco de aprendizaje auto-supervisado multi-tarea con currículo (CMTSSL) que mejora el rendimiento de arquitecturas ligeras para la segmentación de imágenes hiperespectrales en satélites, logrando ganancias consistentes en tareas de clasificación mediante un diseño eficiente que combina modelado de imágenes enmascaradas y rompecabezas espaciales-espectrales.

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu2026-02-17🤖 cs.AI

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

El artículo presenta la Poda de Tokens en Pirámide (PTP), una estrategia sin entrenamiento que mejora la percepción visual de los Modelos Grandes de Lenguaje y Visión de alta resolución al reducir selectivamente los tokens visuales basándose en la saliencia regional y la relevancia de las instrucciones, logrando así una menor latencia y coste computacional con un rendimiento casi idéntico.

Yuxuan Liang, Xu Li, Xiaolei Chen + 4 more2026-02-17💻 cs

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

El artículo presenta DiffusionNFT, un nuevo paradigma de aprendizaje por refuerzo en línea que optimiza modelos de difusión directamente en el proceso forward mediante flujo de coincidencia, superando las limitaciones de métodos anteriores al eliminar la necesidad de estimación de verosimilitud y solvers específicos, lo que resulta en una eficiencia hasta 25 veces mayor y mejoras significativas en benchmarks como GenEval y SD3.5-Medium.

Kaiwen Zheng, Huayu Chen, Haotian Ye + 7 more2026-02-17🤖 cs.AI

UGround: Towards Unified Visual Grounding with Unrolled Transformers

El artículo presenta UGround, un paradigma unificado de grounding visual que supera las limitaciones de los enfoques actuales mediante el uso de Transformers desenrollados y una política de enmascaramiento estocástica para seleccionar dinámicamente capas intermedias y proporcionar señales espaciales explícitas, logrando así unificar tareas de segmentación desde expresiones de referencia hasta razonamiento complejo en un solo marco.

Rui Qian, Xin Yin, Chuanhang Deng + 4 more2026-02-17💻 cs

PAGCNet: A Pose-Aware and Geometry Constrained Framework for Panoramic Depth Estimation

El artículo presenta PAGCNet, un marco de estimación de profundidad panorámica que aborda el desafío de reconstruir el fondo en interiores complejos mediante decodificadores multitarea y un componente de resolución de profundidad de fondo consciente de la pose, el cual utiliza la pose de la cámara para generar una restricción geométrica que corrige y refina las predicciones iniciales, logrando un rendimiento superior en conjuntos de datos como Matterport3D, Structured3D y Replica.

Kanglin Ning, Ruzhao Chen, Penghong Wang + 3 more2026-02-17💻 cs

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Este trabajo presenta el primer marco escalable para la destilación de modelos de difusión de tiempo continuo en tareas de imagen y video a gran escala, introduciendo el modelo de consistencia regularizado por puntuación (rCM) que, mediante un kernel JVP compatible con FlashAttention-2 y un regularizador de destilación de puntuación, logra generar muestras de alta fidelidad en 1-4 pasos con una aceleración de 15x a 50x, superando las limitaciones de calidad y diversidad de métodos anteriores como sCM sin necesidad de ajuste GAN.

Kaiwen Zheng, Yuji Wang, Qianli Ma + 7 more2026-02-17🤖 cs.LG

Consistent text-to-image generation via scene de-contextualization

Este artículo presenta SDeC, un método de edición de incrustaciones de prompts sin entrenamiento que mitiga el desplazamiento de identidad en la generación de imágenes texto-a-imagen al suprimir adaptativamente las correlaciones latentes entre sujeto y escena, permitiendo así una preservación de identidad coherente en diversos contextos sin requerir conocimiento previo de las escenas objetivo.

Song Tang, Peihao Gong, Kunyu Li + 5 more2026-02-17💻 cs

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

El artículo presenta PRISMM-Bench, el primer benchmark basado en inconsistencias reales detectadas por revisores en artículos científicos multimodales, que evalúa la capacidad de los Modelos Multimodales Grandes (LMMs) para identificar, corregir y razonar sobre estas discrepancias, revelando un rendimiento significativamente bajo que subraya la necesidad de desarrollar asistentes científicos más confiables.

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza + 4 more2026-02-17💻 cs

Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types

Este estudio demuestra que los modelos de inteligencia artificial entrenados con radiografías de tórax normales pueden predecir el tipo de seguro de salud de los pacientes, revelando que las imágenes médicas contienen "huellas dactilares" sociales sutiles relacionadas con la desigualdad socioeconómica y cuestionando la supuesta neutralidad biológica de los datos clínicos.

Chi-Yu Chen, Rawan Abulibdeh, Arash Asgari + 8 more2026-02-17🤖 cs.AI

MPCM-Net: Multi-scale network integrates partial attention convolution with Mamba for ground-based cloud image segmentation

Este artículo presenta MPCM-Net, una red de segmentación de imágenes de nubes terrestres que integra convoluciones de atención parcial y arquitecturas Mamba para superar las limitaciones de los métodos actuales, junto con el lanzamiento del nuevo conjunto de datos CSRC, logrando un equilibrio óptimo entre precisión y eficiencia computacional.

Penghui Niu, Jiashuai She, Taotao Cai + 4 more2026-02-17🤖 cs.LG