cs.CV artículos | Gist.Science

Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

Este trabajo presenta un marco de aprendizaje auto-supervisado multi-tarea con currículo (CMTSSL) que mejora el rendimiento de arquitecturas ligeras para la segmentación de imágenes hiperespectrales en satélites, logrando ganancias consistentes en tareas de clasificación mediante un diseño eficiente que combina modelado de imágenes enmascaradas y rompecabezas espaciales-espectrales.

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu2026-02-17🤖 cs.AI

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

El artículo presenta la Poda de Tokens en Pirámide (PTP), una estrategia sin entrenamiento que mejora la percepción visual de los Modelos Grandes de Lenguaje y Visión de alta resolución al reducir selectivamente los tokens visuales basándose en la saliencia regional y la relevancia de las instrucciones, logrando así una menor latencia y coste computacional con un rendimiento casi idéntico.

Yuxuan Liang, Xu Li, Xiaolei Chen + 4 more2026-02-17💻 cs

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

El artículo presenta DiffusionNFT, un nuevo paradigma de aprendizaje por refuerzo en línea que optimiza modelos de difusión directamente en el proceso forward mediante flujo de coincidencia, superando las limitaciones de métodos anteriores al eliminar la necesidad de estimación de verosimilitud y solvers específicos, lo que resulta en una eficiencia hasta 25 veces mayor y mejoras significativas en benchmarks como GenEval y SD3.5-Medium.

Kaiwen Zheng, Huayu Chen, Haotian Ye + 7 more2026-02-17🤖 cs.AI

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

El artículo presenta DeLiVR, un método eficiente para la eliminación de lluvia en videos que mejora la consistencia espaciotemporal inyectando sesgos diferenciales de grupos de Lie en las puntuaciones de atención para lograr una alineación geométrica precisa y una estimación robusta de la velocidad de las gotas de lluvia.

Shuning Sun, Jialang Lu, Xiang Chen + 5 more2026-02-17💻 cs

LAKAN: Landmark-assisted Adaptive Kolmogorov-Arnold Network for Face Forgery Detection

El artículo presenta LAKAN, un nuevo método de detección de deepfakes que combina redes Kolmogorov-Arnold (KAN) con puntos de referencia faciales para adaptar dinámicamente los parámetros de la red y enfocarse en las regiones más informativas de las imágenes, logrando un rendimiento superior en múltiples conjuntos de datos.

Jiayao Jiang, Bin Liu, Qi Chu + 1 more2026-02-17💻 cs

Efficient Test-Time Scaling for Small Vision-Language Models

Este artículo propone dos estrategias de escalado eficiente en tiempo de prueba, TTAug y TTAdapt, que mejoran el rendimiento de los modelos de visión y lenguaje pequeños mediante el uso de características internas y pseudolabels de consenso, logrando mejoras consistentes en múltiples benchmarks sin sacrificar la eficiencia computacional.

Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos2026-02-17🤖 cs.LG

UGround: Towards Unified Visual Grounding with Unrolled Transformers

El artículo presenta UGround, un paradigma unificado de grounding visual que supera las limitaciones de los enfoques actuales mediante el uso de Transformers desenrollados y una política de enmascaramiento estocástica para seleccionar dinámicamente capas intermedias y proporcionar señales espaciales explícitas, logrando así unificar tareas de segmentación desde expresiones de referencia hasta razonamiento complejo en un solo marco.

Rui Qian, Xin Yin, Chuanhang Deng + 4 more2026-02-17💻 cs

PAGCNet: A Pose-Aware and Geometry Constrained Framework for Panoramic Depth Estimation

El artículo presenta PAGCNet, un marco de estimación de profundidad panorámica que aborda el desafío de reconstruir el fondo en interiores complejos mediante decodificadores multitarea y un componente de resolución de profundidad de fondo consciente de la pose, el cual utiliza la pose de la cámara para generar una restricción geométrica que corrige y refina las predicciones iniciales, logrando un rendimiento superior en conjuntos de datos como Matterport3D, Structured3D y Replica.

Kanglin Ning, Ruzhao Chen, Penghong Wang + 3 more2026-02-17💻 cs

The impact of abstract and object tags on image privacy classification

Este artículo demuestra que las etiquetas abstractas son más efectivas que las objetivas para la clasificación de privacidad en imágenes cuando el presupuesto de etiquetas es limitado, mientras que la información basada en objetos resulta igual de útil cuando se dispone de un mayor número de etiquetas.

Darya Baranouskaya, Andrea Cavallaro2026-02-17💻 cs

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Este trabajo presenta el primer marco escalable para la destilación de modelos de difusión de tiempo continuo en tareas de imagen y video a gran escala, introduciendo el modelo de consistencia regularizado por puntuación (rCM) que, mediante un kernel JVP compatible con FlashAttention-2 y un regularizador de destilación de puntuación, logra generar muestras de alta fidelidad en 1-4 pasos con una aceleración de 15x a 50x, superando las limitaciones de calidad y diversidad de métodos anteriores como sCM sin necesidad de ajuste GAN.

Kaiwen Zheng, Yuji Wang, Qianli Ma + 7 more2026-02-17🤖 cs.LG

AnyUp: Universal Feature Upsampling

El artículo presenta AnyUp, un método de superresolución de características visualmente agnóstico que mejora la calidad y generalización de las características upsampleadas sin necesidad de entrenamiento específico para cada extractor.

Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona + 4 more2026-02-17🤖 cs.LG

Consistent text-to-image generation via scene de-contextualization

Este artículo presenta SDeC, un método de edición de incrustaciones de prompts sin entrenamiento que mitiga el desplazamiento de identidad en la generación de imágenes texto-a-imagen al suprimir adaptativamente las correlaciones latentes entre sujeto y escena, permitiendo así una preservación de identidad coherente en diversos contextos sin requerir conocimiento previo de las escenas objetivo.

Song Tang, Peihao Gong, Kunyu Li + 5 more2026-02-17💻 cs

PC-UNet: An Enforcing Poisson Statistics U-Net for Positron Emission Tomography Denoising

Este trabajo presenta PC-UNet, un modelo basado en U-Net que incorpora una nueva función de pérdida de consistencia de varianza y media Poissoniana (PVMC-Loss) para mejorar la fidelidad y la consistencia física en la eliminación de ruido de imágenes de Tomografía por Emisión de Positrones (PET).

Yang Shi, Jingchao Wang, Liangsi Lu + 9 more2026-02-17🤖 cs.AI

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

El artículo presenta PRISMM-Bench, el primer benchmark basado en inconsistencias reales detectadas por revisores en artículos científicos multimodales, que evalúa la capacidad de los Modelos Multimodales Grandes (LMMs) para identificar, corregir y razonar sobre estas discrepancias, revelando un rendimiento significativamente bajo que subraya la necesidad de desarrollar asistentes científicos más confiables.

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza + 4 more2026-02-17💻 cs

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

El artículo presenta la "afasia modal", un fenómeno en el que los modelos multimodales unificados memorizan conceptos visualmente pero fallan al describirlos textualmente, lo que revela una vulnerabilidad de seguridad donde las restricciones aplicadas a un modo no protegen necesariamente a los demás.

Michael Aerni, Joshua Swanson, Kristina Nikolić + 1 more2026-02-17💻 cs

Top-Down Semantic Refinement for Image Captioning

El artículo presenta TDSR, un marco de refinamiento semántico de arriba hacia abajo que reformula la generación de descripciones de imágenes como un problema de planificación jerárquica resuelto mediante una búsqueda eficiente en árboles de Monte Carlo, mejorando significativamente la coherencia narrativa y la precisión de los modelos de lenguaje-visión existentes.

Jusheng Zhang, Kaitong Cai, Jing Yang + 3 more2026-02-17🤖 cs.AI

Formal Reasoning About Confidence and Automated Verification of Neural Networks

Este trabajo presenta un marco unificado para verificar formalmente la confianza y la robustez de redes neuronales mediante una gramática expresiva y la adición de capas que permiten el uso de herramientas de verificación existentes, demostrando su superioridad en una evaluación exhaustiva con miles de benchmarks.

Mohammad Afzal, S. Akshay, Blaise Genest + 1 more2026-02-17🤖 cs.AI

Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types

Este estudio demuestra que los modelos de inteligencia artificial entrenados con radiografías de tórax normales pueden predecir el tipo de seguro de salud de los pacientes, revelando que las imágenes médicas contienen "huellas dactilares" sociales sutiles relacionadas con la desigualdad socioeconómica y cuestionando la supuesta neutralidad biológica de los datos clínicos.

Chi-Yu Chen, Rawan Abulibdeh, Arash Asgari + 8 more2026-02-17🤖 cs.AI

MPCM-Net: Multi-scale network integrates partial attention convolution with Mamba for ground-based cloud image segmentation

Este artículo presenta MPCM-Net, una red de segmentación de imágenes de nubes terrestres que integra convoluciones de atención parcial y arquitecturas Mamba para superar las limitaciones de los métodos actuales, junto con el lanzamiento del nuevo conjunto de datos CSRC, logrando un equilibrio óptimo entre precisión y eficiencia computacional.

Penghui Niu, Jiashuai She, Taotao Cai + 4 more2026-02-17🤖 cs.LG

Procedural Mistake Detection via Action Effect Modeling

Este trabajo propone el Modelo de Efecto de Acción (AEM), un marco unificado que mejora la detección de errores en tareas procedimentales al integrar tanto la ejecución como los resultados visuales y semánticos de las acciones, logrando un rendimiento superior en benchmarks clave bajo configuración de clasificación de una sola clase.

Wenliang Guo, Yujiang Pu, Yu Kong2026-02-17💻 cs

← Anterior Siguiente →