cs.CV artículos | Gist.Science

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

El artículo presenta ViT-Linearizer, un marco de destilación que transfiere el conocimiento de los Transformers de Visión (ViT) a modelos recurrentes de complejidad lineal mediante coincidencia de activaciones y predicción enmascarada, logrando así una mayor eficiencia computacional en imágenes de alta resolución y un rendimiento competitivo en ImageNet.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

El artículo presenta LAMM-ViT, un transformador de visión que utiliza modulación de enmascaramiento consciente de la capa y atención guiada por regiones para detectar de manera robusta rostros generados por IA, logrando un rendimiento superior y una mejor generalización frente a modelos de síntesis novedosos.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds

Este artículo propone un marco de detección de objetos 3D basado en la destilación de conocimiento con predicción de reflectancia (RPKD) que, al descartar la reflectancia durante la transmisión comprimida y reconstruirla mediante un módulo de predicción geométrica, mejora la robustez y precisión de la detección en sistemas de percepción colaborativa con ancho de banda limitado.

Hao Jing, Anhong Wang, Yifan Zhang + 2 more2026-02-27💻 cs

Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

El artículo presenta BriGeS, un método eficiente que fusiona modelos fundacionales geométricos y semánticos mediante una Puente de Conexión y un ajuste de temperatura de atención para mejorar la estimación de profundidad monoculosa generalizada con un entrenamiento mínimo.

Sanggyun Ma, Wonjoon Choi, Jihun Park + 4 more2026-02-27💻 cs

Sparse Imagination for Efficient Visual World Model Planning

Este trabajo propone un método de "imaginación dispersa" que optimiza la planificación de modelos de mundo visuales en robótica reduciendo la carga computacional mediante una estrategia de atención grupal aleatorizada, lo que permite una ejecución en tiempo real sin sacrificar la precisión del control.

Junha Chun, Youngjoon Jeong, Taesup Kim2026-02-27🤖 cs.AI

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

El artículo presenta LinGuinE, un marco de trabajo en PyTorch que combina registro de imágenes y segmentación guiada para lograr un seguimiento de lesiones y una segmentación volumétrica precisa en estudios longitudinales de tumores a partir de una sola indicación del radiólogo, sin necesidad de entrenamiento en datos longitudinales y logrando un rendimiento superior al estado del arte.

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess

Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion

Este trabajo presenta un marco novedoso basado en el Puente de Schrödinger y difusión condicional guiada por retroalimentación humana binaria para la traducción de imágenes CBCT a MDCT, que elimina eficazmente los artefactos de sombreado preservando la fidelidad anatómica y superando a los métodos anteriores con solo 10 pasos de muestreo.

Sung Ho Kang, Hyun-Cheol Park2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

Este trabajo aborda el desafío de la escasez de datos en la segmentación de imágenes médicas proponiendo un marco basado en la intercambiabilidad en lugar de la independencia e identidad distribuida (i.i.d.), el cual controla las discrepancias de características entre fondos y primeros planos para mitigar los desplazamientos de distribución y lograr un rendimiento superior al estado del arte en múltiples conjuntos de datos.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

El artículo presenta LayerT2V, un marco unificado de generación de video que, aprovechando la compresión de los modelos actuales y un nuevo conjunto de datos llamado VidLayer, produce en una sola inferencia videos completos junto con sus capas de fondo y primer plano correspondientes, garantizando una coherencia semántica y temporal superior para flujos de trabajo profesionales.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

El artículo presenta RAP, un marco unificado que utiliza transformadores de difusión de video para generar retratos parlantes de alta calidad en tiempo real mediante un mecanismo de atención híbrido y un paradigma de entrenamiento-inferencia estático-dinámico que supera las limitaciones de latencia y memoria de los métodos existentes.

Fangyu Du, Taiqing Li, Qian Qiao + 7 more2026-02-27⚡ eess

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

El artículo presenta MixCache, un marco de inferencia sin entrenamiento para modelos de difusión de video que acelera significativamente la generación mediante una estrategia de activación contextual y una decisión híbrida adaptativa que combina múltiples granularidades de caché para equilibrar velocidad y calidad.

Yuanxin Wei, Lansong Diao, Bujiao Chen + 6 more2026-02-27🤖 cs.LG

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

El artículo presenta Dyslexify, un método de defensa sin entrenamiento que protege a los modelos CLIP de ataques tipográficos al eliminar selectivamente circuitos de atención específicos, mejorando significativamente la robustez ante manipulaciones textuales sin comprometer la precisión estándar.

Lorenz Hufe, Constantin Venhoff, Erblina Purelku + 3 more2026-02-27🤖 cs.AI

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

Este artículo presenta un método de construcción de conjuntos de datos multimodales de seguridad autoadaptativo centrado en imágenes que genera automáticamente un dataset de 35k pares y propone una métrica de evaluación estandarizada para abordar la complejidad de los escenarios de seguridad del mundo real.

Jingen Qu, Lijun Li, Bo Zhang + 2 more2026-02-27💬 cs.CL

Loc $^2$ : Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching

El artículo presenta Loc $^2$ , un método interpretable y preciso para la localización cruzada de vistas que estima la pose de una imagen terrestre mediante el emparejamiento de características locales con una referencia aérea, elevando los puntos coincidentes a espacio BEV usando profundidad monocular y alineación Procrustes sin necesidad de anotaciones a nivel de píxel.

Zimin Xia, Chenghao Xu, Alexandre Alahi2026-02-27💻 cs

ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

Este artículo presenta ST-GS, un marco innovador que mejora la predicción de ocupación semántica 3D mediante un mecanismo de atención dual para la agregación espacial y un esquema de fusión temporal consciente de la geometría, logrando así un rendimiento superior y mayor consistencia temporal en comparación con los métodos basados en Gaussianas existentes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-02-27💻 cs

Visual Instruction Pretraining for Domain-Specific Foundation Models

Este artículo presenta ViTP, un nuevo enfoque de preentrenamiento que integra el razonamiento en la percepción visual mediante un modelo de lenguaje-vision y aprendizaje de robustez, logrando resultados de vanguardia en diversas tareas de imágenes médicas y de teledetección.

Yuxuan Li, Yicheng Zhang, Wenhao Tang + 4 more2026-02-27💻 cs

PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

El artículo presenta PartSAM, el primer modelo de segmentación de partes 3D entrenado nativamente en grandes volúmenes de datos 3D mediante una arquitectura escalable y un pipeline de anotación masiva, lo que le permite superar a los métodos actuales en la identificación precisa de partes superficiales e internas de objetos sin depender de la transferencia de modelos 2D.

Zhe Zhu, Le Wan, Rui Xu + 6 more2026-02-27💻 cs

Secure and reversible face anonymization with diffusion models

Este artículo presenta el primer marco basado en modelos de difusión para el anonimato facial reversible y seguro, que utiliza la condicionamiento con una clave secreta para garantizar la recuperación exacta de la identidad por parte de entidades autorizadas mientras previene el acceso no autorizado.

Pol Labarbarie, Vincent Itier, William Puech2026-02-27🤖 cs.LG

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

Este trabajo propone un marco de difusión asíncrono que asigna escalas de tiempo distintas a diferentes píxeles para permitir que las regiones relacionadas con el prompt se denoisen más gradualmente y aprovechen un contexto más claro, mejorando así significativamente la alineación entre texto e imagen.

Zijing Hu, Yunze Tong, Fengda Zhang + 3 more2026-02-27💻 cs

Detection and Measurement of Hailstones with Multimodal Large Language Models

Este estudio demuestra que los modelos de lenguaje grandes multimodales preentrenados pueden detectar y medir con precisión el diámetro de granizos en imágenes de redes sociales mediante estrategias de prompting de dos etapas, ofreciendo una alternativa complementaria a los sensores tradicionales para la evaluación rápida de eventos climáticos severos.

Moritz Alker, David C. Schedl, Andreas Stöckl2026-02-27🤖 cs.AI

← Anterior Siguiente →

cs.CV