cs.CV artículos | Gist.Science

LoR-LUT: Learning Compact 3D Lookup Tables via Low-Rank Residuals

El artículo presenta LoR-LUT, un enfoque unificado que genera tablas de búsqueda 3D compactas e interpretables mediante el uso de residuos de bajo rango junto con tablas base, logrando una alta fidelidad perceptual con un tamaño de modelo reducido y ofreciendo una herramienta interactiva para su visualización.

Ziqi Zhao, Abhijit Mishra, Shounak Roychowdhury2026-02-27💻 cs

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Este artículo presenta DP-aware AdaLN-Zero, un mecanismo de condicionamiento sensible a la sensibilidad que mitiga los gradientes de cola pesada inducidos por contextos heterogéneos en modelos de difusión, mejorando así la utilidad del entrenamiento bajo privacidad diferencial sin alterar el mecanismo DP-SGD ni sacrificar el rendimiento estándar.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery

El paper presenta SATtxt, un modelo de visión-lingüística que utiliza la destilación de representaciones espectrales y la alineación con LLMs instruidos para lograr un rendimiento superior en tareas de clasificación y recuperación de imágenes satelitales utilizando únicamente entradas RGB durante la inferencia.

Minh Kha Do, Wei Xiang, Kang Han + 5 more2026-02-27💻 cs

Coded-E2LF: Coded Aperture Light Field Imaging from Events

El artículo presenta Coded-E2LF, un método de imagen computacional que reconstruye por primera vez un campo de luz 4D con precisión a nivel de píxel utilizando exclusivamente una cámara de eventos y un diafragma codificado, eliminando la necesidad de capturar imágenes de intensidad.

Tomoya Tsuchida, Keita Takahashi, Chihiro Tsutake + 2 more2026-02-27💻 cs

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Este trabajo presenta CGSA, un marco innovador que integra el aprendizaje centrado en objetos y la adaptación consciente de "slots" en detectores basados en DETR para lograr una detección de objetos adaptativa libre de fuente, superando a los métodos anteriores al preservar la consistencia semántica sin necesidad de datos de origen.

Boyang Dai, Zeng Fan, Zihao Qi + 2 more2026-02-27🤖 cs.AI

Instruction-based Image Editing with Planning, Reasoning, and Generation

Este trabajo propone un marco de edición de imágenes basado en instrucciones que integra planificación, razonamiento y generación mediante un modelo multimodal con pensamiento en cadena para superar las limitaciones de los enfoques anteriores y lograr ediciones más complejas y precisas.

Liya Ji, Chenyang Qi, Qifeng Chen2026-02-27🤖 cs.AI

CRAG: Can 3D Generative Models Help 3D Assembly?

El artículo presenta CRAG, un nuevo enfoque que reformula el ensamblaje 3D como un problema conjunto de generación y ensamblaje, donde ambos procesos se refuerzan mutuamente para sintetizar geometrías faltantes y predecir poses con un rendimiento superior al estado del arte en objetos diversos y parciales.

Zeyu Jiang, Sihang Li, Siqi Tan + 8 more2026-02-27💻 cs

QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition

Este trabajo presenta un nuevo marco teórico y algoritmo de sincronización basado en la descomposición de Tucker para recuperar múltiples cámaras a partir de tensores cuatrifocales, demostrando que la información de orden superior es práctica y superior a los enfoques tradicionales basados en matrices esenciales.

Daniel Miao, Gilad Lerman, Joe Kileel2026-02-27🔢 math

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

Este trabajo presenta un módulo plug-and-play de bajo costo que utiliza una métrica de relación de frecuencias para cuantificar y reequilibrar dinámicamente las preferencias de las modalidades durante el entrenamiento, mejorando así la robustez y el rendimiento de los modelos de comprensión de imágenes multimodales ante la ausencia de datos.

Siqi Lu, Wanying Xu, Yongbin Zheng + 3 more2026-02-27💻 cs

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

Este artículo presenta una herramienta de anotación semiautomática de código abierto basada en Napari que integra el modelo Medical-SAM2 para mejorar la eficiencia en la anotación de volúmenes médicos 2D y 3D mediante la propagación de máscaras a partir de prompts espaciales, ofreciendo un flujo de trabajo local unificado para la navegación, corrección interactiva y exportación cuantitativa de datos de investigación.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Este trabajo presenta un enfoque práctico para la construcción de un conjunto de datos de evaluación de calidad audiovisual mediante crowdsourcing, resultando en YT-NTU-AVQ, el conjunto de datos más grande y diverso hasta la fecha, que supera las limitaciones de escala y diversidad de los existentes mediante anotaciones fiables en entornos variados y una amplia cobertura de escenarios semánticos y niveles de calidad.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs

Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Este artículo presenta un marco novedoso para la predicción de ocupación de vocabulario abierto en interiores mediante una sola cámara, que utiliza una supervisión puramente geométrica y Gaussians de lenguaje incrustados con un enfoque de temperatura progresiva para superar las limitaciones de los métodos existentes y lograr un rendimiento superior en el conjunto de datos Occ-ScanNet.

Changqing Zhou, Yueru Luo, Han Zhang + 2 more2026-02-27💻 cs

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

El artículo presenta SPMamba-YOLO, una red innovadora para la detección de objetos submarinos que integra un módulo SPPELAN, un mecanismo de atención PSA y un modelo basado en Mamba para superar los desafíos del entorno acuático y lograr un rendimiento superior al de YOLOv8n en el conjunto de datos URPC2022.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Este trabajo presenta ViCLIP-OT, el primer modelo fundacional visión-idioma diseñado específicamente para la recuperación de imágenes y texto en vietnamita, que integra aprendizaje contrastivo con una pérdida de transporte óptimo regularizada por grafos de similitud para superar significativamente a los modelos existentes en entornos de recursos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

Este trabajo presenta SUPERGLASSES, el primer benchmark integral de preguntas y respuestas visuales basado en datos reales de gafas inteligentes, y propone SUPERLENS, un agente multimodal que supera a GPT-4o al integrar la detección automática de objetos y la búsqueda web para abordar los desafíos específicos de este dispositivo.

Zhuohang Jiang, Xu Yuan, Haohao Qu + 4 more2026-02-27🤖 cs.AI

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Este trabajo presenta MoFit, un marco de inferencia de membresía sin necesidad de subtítulos que utiliza optimización de surrogados ajustados al modelo para generar incrustaciones sintéticas que superan a los métodos basados en VLM y rivalizan con las técnicas dependientes de subtítulos en la detección de memorización en modelos de difusión latente.

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha + 2 more2026-02-27💻 cs

UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects

El artículo presenta UFO-DETR, un marco de detección de objetos de extremo a extremo diseñado para imágenes de UAV que integra una red base LSKNet, módulos DAttention y AIFI, y un nuevo bloque DynFreq-C3 para mejorar la detección de objetos pequeños mediante el aprendizaje de relaciones espaciales multiescala y la realce de características en el dominio de la frecuencia, logrando un equilibrio superior entre precisión y eficiencia computacional.

Yuankai Chen, Kai Lin, Qihong Wu + 6 more2026-02-27💻 cs

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

Este trabajo presenta SoPE, una nueva codificación posicional basada en coordenadas esféricas que mejora la percepción espacial de los modelos 3D LVLM al preservar la estructura geométrica y las dependencias angulares de los datos de nubes de puntos, superando las limitaciones de la codificación RoPE tradicional.

Guanting Ye, Qiyan Zhao, Wenhao Yu + 7 more2026-02-27🤖 cs.AI

IRSDE-Despeckle: A Physics-Grounded Diffusion Model for Generalizable Ultrasound Despeckling

El artículo presenta IRSDE-Despeckle, un modelo de difusión basado en ecuaciones diferenciales estocásticas que, tras ser entrenado con datos simulados, supera a los métodos existentes en la eliminación de ruido de speckle de imágenes de ultrasonido preservando los bordes anatómicos y ofreciendo una estimación de incertidumbre para identificar regiones problemáticas.

Shuoqi Chen, Yujia Wu, Geoffrey P. Luke2026-02-27💻 cs

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

HulluEdit es un marco de intervención de un solo paso y sin modelos de referencia que mitiga las alucinaciones en los Modelos Grandes de Lenguaje y Visión mediante la edición de subespacios ortogonales, lo que permite suprimir selectivamente patrones alucinatorios sin alterar la evidencia visual, logrando así un rendimiento superior en benchmarks de reducción de alucinaciones mientras se preservan las capacidades generales del modelo.

Yangguang Lin, Quan Fang, Yufei Li + 3 more2026-02-27💻 cs

← Anterior Siguiente →