cs.CV artículos | Gist.Science

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

El artículo presenta MixCache, un marco de inferencia sin entrenamiento para modelos de difusión de video que acelera significativamente la generación mediante una estrategia de activación contextual y una decisión híbrida adaptativa que combina múltiples granularidades de caché para equilibrar velocidad y calidad.

Yuanxin Wei, Lansong Diao, Bujiao Chen + 6 more2026-02-27🤖 cs.LG

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

El artículo presenta Dyslexify, un método de defensa sin entrenamiento que protege a los modelos CLIP de ataques tipográficos al eliminar selectivamente circuitos de atención específicos, mejorando significativamente la robustez ante manipulaciones textuales sin comprometer la precisión estándar.

Lorenz Hufe, Constantin Venhoff, Erblina Purelku + 3 more2026-02-27🤖 cs.AI

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

Este artículo presenta un método de construcción de conjuntos de datos multimodales de seguridad autoadaptativo centrado en imágenes que genera automáticamente un dataset de 35k pares y propone una métrica de evaluación estandarizada para abordar la complejidad de los escenarios de seguridad del mundo real.

Jingen Qu, Lijun Li, Bo Zhang + 2 more2026-02-27💬 cs.CL

Loc $^2$ : Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching

El artículo presenta Loc $^2$ , un método interpretable y preciso para la localización cruzada de vistas que estima la pose de una imagen terrestre mediante el emparejamiento de características locales con una referencia aérea, elevando los puntos coincidentes a espacio BEV usando profundidad monocular y alineación Procrustes sin necesidad de anotaciones a nivel de píxel.

Zimin Xia, Chenghao Xu, Alexandre Alahi2026-02-27💻 cs

ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

Este artículo presenta ST-GS, un marco innovador que mejora la predicción de ocupación semántica 3D mediante un mecanismo de atención dual para la agregación espacial y un esquema de fusión temporal consciente de la geometría, logrando así un rendimiento superior y mayor consistencia temporal en comparación con los métodos basados en Gaussianas existentes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-02-27💻 cs

Visual Instruction Pretraining for Domain-Specific Foundation Models

Este artículo presenta ViTP, un nuevo enfoque de preentrenamiento que integra el razonamiento en la percepción visual mediante un modelo de lenguaje-vision y aprendizaje de robustez, logrando resultados de vanguardia en diversas tareas de imágenes médicas y de teledetección.

Yuxuan Li, Yicheng Zhang, Wenhao Tang + 4 more2026-02-27💻 cs

PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

El artículo presenta PartSAM, el primer modelo de segmentación de partes 3D entrenado nativamente en grandes volúmenes de datos 3D mediante una arquitectura escalable y un pipeline de anotación masiva, lo que le permite superar a los métodos actuales en la identificación precisa de partes superficiales e internas de objetos sin depender de la transferencia de modelos 2D.

Zhe Zhu, Le Wan, Rui Xu + 6 more2026-02-27💻 cs

Secure and reversible face anonymization with diffusion models

Este artículo presenta el primer marco basado en modelos de difusión para el anonimato facial reversible y seguro, que utiliza la condicionamiento con una clave secreta para garantizar la recuperación exacta de la identidad por parte de entidades autorizadas mientras previene el acceso no autorizado.

Pol Labarbarie, Vincent Itier, William Puech2026-02-27🤖 cs.LG

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

Este trabajo propone un marco de difusión asíncrono que asigna escalas de tiempo distintas a diferentes píxeles para permitir que las regiones relacionadas con el prompt se denoisen más gradualmente y aprovechen un contexto más claro, mejorando así significativamente la alineación entre texto e imagen.

Zijing Hu, Yunze Tong, Fengda Zhang + 3 more2026-02-27💻 cs

Detection and Measurement of Hailstones with Multimodal Large Language Models

Este estudio demuestra que los modelos de lenguaje grandes multimodales preentrenados pueden detectar y medir con precisión el diámetro de granizos en imágenes de redes sociales mediante estrategias de prompting de dos etapas, ofreciendo una alternativa complementaria a los sensores tradicionales para la evaluación rápida de eventos climáticos severos.

Moritz Alker, David C. Schedl, Andreas Stöckl2026-02-27🤖 cs.AI

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

El artículo presenta FlowRVS, un marco novedoso que reformula la segmentación de objetos en video referenciada por lenguaje como un problema de flujo continuo guiado por texto, logrando un rendimiento superior al estado del arte al aprender deformaciones directas desde la representación del video hacia la máscara objetivo.

Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li + 6 more2026-02-27💻 cs

G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior

El artículo presenta G4Splat, un método que utiliza un prior generativo guiado por geometría precisa derivada de estructuras planas para superar las limitaciones de consistencia multi-vista y reconstrucción en regiones no observadas, logrando así una recuperación de escenas 3D de alta calidad a partir de entradas de una sola vista o videos no poseídos.

Junfeng Ni, Yixin Chen, Zhifei Yang + 4 more2026-02-27💻 cs

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Este trabajo presenta PoSh, una métrica que utiliza grafos de escena para guiar a los modelos de lenguaje grandes como jueces en la evaluación de descripciones de imágenes detalladas, junto con el nuevo conjunto de datos DOCENT para validar su superioridad frente a métodos existentes y medir el progreso de los modelos en dominios complejos como el arte.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford + 7 more2026-02-27💬 cs.CL

Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

Este estudio demuestra que el aprendizaje auto-supervisado permite realizar una clasificación de cobertura terrestre a 1 metro de resolución a escala estatal utilizando solo 1.000 muestras etiquetadas, superando así la barrera de la necesidad de grandes volúmenes de datos de entrenamiento para el mapeo de alta resolución.

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

Q $^2$ : Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

El artículo presenta Q², un marco de entrenamiento que mejora la cuantización de bajo bit en tareas visuales complejas mediante el equilibrio dinámico de gradientes y la alineación de la distribución de atención, logrando ganancias significativas en detección de objetos y segmentación de imágenes sin añadir sobrecarga en la inferencia.

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

El artículo presenta USF-Net, una red neuronal unificada que integra convoluciones de grandes kernels adaptativos y mecanismos de atención de bajo costo para mejorar la extrapolación de secuencias de imágenes de nubes en sistemas fotovoltaicos, superando las limitaciones de los métodos existentes en eficiencia y modelado de dependencias espaciotemporales, y acompañada del lanzamiento del nuevo conjunto de datos ASI-CIS.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

Este trabajo identifica el problema de los "atajos visuales" en los benchmarks existentes de VQA multimodal basado en conocimiento, introduciendo el nuevo benchmark RETINA y el modelo MIMIR para forzar y evaluar la comprensión real de relaciones entre entidades en lugar de depender de coincidencias visuales superficiales.

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

El artículo presenta MedSegLatDiff, un marco de difusión en espacio latente que combina un autoencoder variacional con un modelo de difusión para lograr una segmentación médica eficiente y probabilística, superando las limitaciones computacionales de los métodos generativos actuales y ofreciendo resultados competitivos en conjuntos de datos clínicos.

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

El artículo presenta ClimaDrive, un marco de generación de imágenes guiado por semántica que produce datos sintéticos físicamente realistas y diversos en condiciones climáticas para construir el benchmark ClimaOoD, el cual mejora significativamente la generalización y robustez de los modelos de segmentación de anomalías en entornos de conducción autónoma.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

El artículo presenta VLM-Pruner, un algoritmo de poda de tokens sin entrenamiento que equilibra la redundancia y la dispersión espacial mediante un paradigma de poda centrífuga y un criterio de almacenamiento temporal para mejorar la eficiencia y el rendimiento de los modelos de visión y lenguaje.

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni + 4 more2026-02-27🤖 cs.LG

← Anterior Siguiente →

cs.CV