cs.CV artículos | Gist.Science

3DRot: Rediscovering the Missing Primitive for RGB-Based 3D Augmentation

Este artículo presenta 3DRot, una técnica de aumento de datos plug-and-play que realiza rotaciones y reflexiones geométricamente consistentes en imágenes RGB sin requerir profundidad de la escena, mejorando significativamente el rendimiento en tareas de percepción 3D como la detección y estimación de profundidad.

Shitian Yang, Deyu Li, Xiaoke Jiang + 1 more2026-02-17🤖 cs.LG

Hyperspectral vs. RGB for Pedestrian Segmentation in Urban Driving Scenes: A Comparative Study

Este estudio demuestra que la selección óptima de bandas espectrales en imágenes hiperespectrales mejora significativamente la segmentación de peatones y motociclistas en escenarios urbanos en comparación con las imágenes RGB, ofreciendo una solución más segura para los sistemas de percepción automotriz.

Jiarong Li, Imad Ali Shah, Enda Ward + 3 more2026-02-17💻 cs

GelSLAM: A Real-time, High-Fidelity, and Robust 3D Tactile SLAM System

El artículo presenta GelSLAM, un sistema de SLAM 3D en tiempo real que utiliza exclusivamente sensores táctiles para estimar con alta precisión la pose y reconstruir la forma de objetos durante la manipulación, superando las limitaciones de los métodos visuales al ofrecer una percepción espacial global y robusta incluso en objetos de baja textura.

Hung-Jui Huang, Mohammad Amin Mirzaee, Michael Kaess + 1 more2026-02-17💻 cs

CellINR: Implicitly Overcoming Photo-induced Artifacts in 4D Live Fluorescence Microscopy

El marco CellINR utiliza representaciones neuronales implícitas para eliminar eficazmente los artefactos inducidos por la luz y restaurar la continuidad estructural en la microscopía de fluorescencia en vivo 4D, ofreciendo además un nuevo conjunto de datos emparejado para la evaluación de este tipo de reconstrucciones.

Cunmin Zhao, Ziyuan Luo, Guoye Guan + 4 more2026-02-17⚡ eess

Image-to-Brain Signal Generation for Visual Prosthesis with CLIP Guided Multimodal Diffusion Models

Este trabajo presenta un marco novedoso basado en modelos de difusión multimodal guiados por CLIP que genera señales cerebrales (M/EEG) a partir de imágenes para prótesis visuales, alineando las representaciones de imágenes y descripciones textuales con las señales neuronales mediante mecanismos de atención cruzada y codificaciones espaciotemporales aprendibles.

Ganxi Xu, Zhao-Rong Lai, Yuting Tang + 5 more2026-02-17💻 cs

BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals

El artículo presenta BEVTraj, un marco de predicción de trayectorias sin mapas que utiliza atención deformable y propuestas de objetivos dispersas para lograr un rendimiento comparable a los métodos basados en mapas de alta definición, ofreciendo mayor flexibilidad y robustez al procesar directamente datos de sensores en vista cenital.

Minsang Kong, Myeongjun Kim, Sang Gu Kang + 3 more2026-02-17💻 cs

Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

Este trabajo presenta un marco de aprendizaje auto-supervisado multi-tarea con currículo (CMTSSL) que mejora el rendimiento de arquitecturas ligeras para la segmentación de imágenes hiperespectrales en satélites, logrando ganancias consistentes en tareas de clasificación mediante un diseño eficiente que combina modelado de imágenes enmascaradas y rompecabezas espaciales-espectrales.

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu2026-02-17🤖 cs.AI

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

El artículo presenta la Poda de Tokens en Pirámide (PTP), una estrategia sin entrenamiento que mejora la percepción visual de los Modelos Grandes de Lenguaje y Visión de alta resolución al reducir selectivamente los tokens visuales basándose en la saliencia regional y la relevancia de las instrucciones, logrando así una menor latencia y coste computacional con un rendimiento casi idéntico.

Yuxuan Liang, Xu Li, Xiaolei Chen + 4 more2026-02-17💻 cs

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

El artículo presenta DiffusionNFT, un nuevo paradigma de aprendizaje por refuerzo en línea que optimiza modelos de difusión directamente en el proceso forward mediante flujo de coincidencia, superando las limitaciones de métodos anteriores al eliminar la necesidad de estimación de verosimilitud y solvers específicos, lo que resulta en una eficiencia hasta 25 veces mayor y mejoras significativas en benchmarks como GenEval y SD3.5-Medium.

Kaiwen Zheng, Huayu Chen, Haotian Ye + 7 more2026-02-17🤖 cs.AI

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

El artículo presenta DeLiVR, un método eficiente para la eliminación de lluvia en videos que mejora la consistencia espaciotemporal inyectando sesgos diferenciales de grupos de Lie en las puntuaciones de atención para lograr una alineación geométrica precisa y una estimación robusta de la velocidad de las gotas de lluvia.

Shuning Sun, Jialang Lu, Xiang Chen + 5 more2026-02-17💻 cs

LAKAN: Landmark-assisted Adaptive Kolmogorov-Arnold Network for Face Forgery Detection

El artículo presenta LAKAN, un nuevo método de detección de deepfakes que combina redes Kolmogorov-Arnold (KAN) con puntos de referencia faciales para adaptar dinámicamente los parámetros de la red y enfocarse en las regiones más informativas de las imágenes, logrando un rendimiento superior en múltiples conjuntos de datos.

Jiayao Jiang, Bin Liu, Qi Chu + 1 more2026-02-17💻 cs

Efficient Test-Time Scaling for Small Vision-Language Models

Este artículo propone dos estrategias de escalado eficiente en tiempo de prueba, TTAug y TTAdapt, que mejoran el rendimiento de los modelos de visión y lenguaje pequeños mediante el uso de características internas y pseudolabels de consenso, logrando mejoras consistentes en múltiples benchmarks sin sacrificar la eficiencia computacional.

Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos2026-02-17🤖 cs.LG

UGround: Towards Unified Visual Grounding with Unrolled Transformers

El artículo presenta UGround, un paradigma unificado de grounding visual que supera las limitaciones de los enfoques actuales mediante el uso de Transformers desenrollados y una política de enmascaramiento estocástica para seleccionar dinámicamente capas intermedias y proporcionar señales espaciales explícitas, logrando así unificar tareas de segmentación desde expresiones de referencia hasta razonamiento complejo en un solo marco.

Rui Qian, Xin Yin, Chuanhang Deng + 4 more2026-02-17💻 cs

PAGCNet: A Pose-Aware and Geometry Constrained Framework for Panoramic Depth Estimation

El artículo presenta PAGCNet, un marco de estimación de profundidad panorámica que aborda el desafío de reconstruir el fondo en interiores complejos mediante decodificadores multitarea y un componente de resolución de profundidad de fondo consciente de la pose, el cual utiliza la pose de la cámara para generar una restricción geométrica que corrige y refina las predicciones iniciales, logrando un rendimiento superior en conjuntos de datos como Matterport3D, Structured3D y Replica.

Kanglin Ning, Ruzhao Chen, Penghong Wang + 3 more2026-02-17💻 cs

The impact of abstract and object tags on image privacy classification

Este artículo demuestra que las etiquetas abstractas son más efectivas que las objetivas para la clasificación de privacidad en imágenes cuando el presupuesto de etiquetas es limitado, mientras que la información basada en objetos resulta igual de útil cuando se dispone de un mayor número de etiquetas.

Darya Baranouskaya, Andrea Cavallaro2026-02-17💻 cs

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Este trabajo presenta el primer marco escalable para la destilación de modelos de difusión de tiempo continuo en tareas de imagen y video a gran escala, introduciendo el modelo de consistencia regularizado por puntuación (rCM) que, mediante un kernel JVP compatible con FlashAttention-2 y un regularizador de destilación de puntuación, logra generar muestras de alta fidelidad en 1-4 pasos con una aceleración de 15x a 50x, superando las limitaciones de calidad y diversidad de métodos anteriores como sCM sin necesidad de ajuste GAN.

Kaiwen Zheng, Yuji Wang, Qianli Ma + 7 more2026-02-17🤖 cs.LG

AnyUp: Universal Feature Upsampling

El artículo presenta AnyUp, un método de superresolución de características visualmente agnóstico que mejora la calidad y generalización de las características upsampleadas sin necesidad de entrenamiento específico para cada extractor.

Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona + 4 more2026-02-17🤖 cs.LG

Consistent text-to-image generation via scene de-contextualization

Este artículo presenta SDeC, un método de edición de incrustaciones de prompts sin entrenamiento que mitiga el desplazamiento de identidad en la generación de imágenes texto-a-imagen al suprimir adaptativamente las correlaciones latentes entre sujeto y escena, permitiendo así una preservación de identidad coherente en diversos contextos sin requerir conocimiento previo de las escenas objetivo.

Song Tang, Peihao Gong, Kunyu Li + 5 more2026-02-17💻 cs

PC-UNet: An Enforcing Poisson Statistics U-Net for Positron Emission Tomography Denoising

Este trabajo presenta PC-UNet, un modelo basado en U-Net que incorpora una nueva función de pérdida de consistencia de varianza y media Poissoniana (PVMC-Loss) para mejorar la fidelidad y la consistencia física en la eliminación de ruido de imágenes de Tomografía por Emisión de Positrones (PET).

Yang Shi, Jingchao Wang, Liangsi Lu + 9 more2026-02-17🤖 cs.AI

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

El artículo presenta PRISMM-Bench, el primer benchmark basado en inconsistencias reales detectadas por revisores en artículos científicos multimodales, que evalúa la capacidad de los Modelos Multimodales Grandes (LMMs) para identificar, corregir y razonar sobre estas discrepancias, revelando un rendimiento significativamente bajo que subraya la necesidad de desarrollar asistentes científicos más confiables.

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza + 4 more2026-02-17💻 cs

← Anterior Siguiente →