cs.CV artículos | Gist.Science

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Este trabajo presenta EA-Swin, un transformador Swin agnóstico a las incrustaciones que logra una detección superior y generalizable de videos generados por IA mediante el modelado directo de dependencias espacio-temporales, validado en un nuevo conjunto de datos de 130K videos que supera significativamente a los métodos actuales.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard es un marco de transformadores topológicos que permite la búsqueda de identidad privada y resiliente a sesgos en cámaras urbanas distribuidas, combinando aprendizaje métrico adaptativo, atención espacial condicional y privacidad diferencial para lograr una coincidencia precisa sin compartir imágenes crudas.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

El artículo presenta CARE, un modelo fundacional de patología que utiliza un enfoque de dos etapas con alineación cruzada de modalidades (ARN y proteínas) para dividir automáticamente las imágenes de diapositivas completas en regiones adaptativas morfológicamente relevantes, logrando un rendimiento superior en múltiples tareas con solo una décima parte de los datos de entrenamiento habituales.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Este artículo presenta MasqLoRA, un marco de ataque sistemático que explota la flexibilidad de los adaptadores LoRA en modelos de difusión texto-imagen para inyectar puertas traseras estelares que activan comportamientos maliciosos mediante palabras clave específicas sin alterar el comportamiento normal del modelo.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

El artículo presenta RobustVisRAG, un marco de generación aumentada por recuperación basada en visión guiado por causalidad que separa eficazmente los factores semánticos de las degradaciones visuales mediante un enfoque de doble vía, logrando así una mayor robustez en la recuperación y generación de respuestas bajo condiciones visuales adversas sin sacrificar la precisión en entradas limpias.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

El artículo presenta LFG, un marco de preentrenamiento sin etiquetas que utiliza videos de conducción en internet sin poses ni anotaciones para aprender representaciones unificadas de percepción autónoma mediante modelos maestros multimodales, logrando un rendimiento superior en tareas de planificación y predicción de movimiento.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

El artículo presenta Diffusion Probe, un marco eficiente y agnóstico al modelo que predice la calidad final de las imágenes generadas por difusión texto-a-imagen analizando las distribuciones de atención cruzada en etapas tempranas, permitiendo así optimizar recursos y mejorar la calidad de salida mediante decisiones anticipadas.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

El artículo presenta DiffusionHarmonizer, un marco de mejora generativa en línea que transforma reconstrucciones neuronales imperfectas en simulaciones fotorealistas y temporalmente consistentes mediante un potenciador de difusión de un solo paso entrenado con un pipeline de datos personalizado.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D es un marco unificado de alimentación directa que reconstruye una representación 4D densa y explícita a partir de solo dos imágenes sin pose, estimando simultáneamente geometría 3D, movimiento y pose de la cámara mediante una representación compartida de Gaussianas 3D dinámicas que supera a los métodos anteriores en precisión y permite una interpolación 4D de alta fidelidad.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

El artículo presenta Dr. Seg, un marco de entrenamiento basado en GRPO diseñado específicamente para modelos de lenguaje visual grandes que aborda las limitaciones de los paradigmas de razonamiento en tareas de percepción mediante mecanismos de confirmación y recompensas estables, mejorando así el rendimiento en escenarios visuales complejos sin requerir modificaciones arquitectónicas.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

El artículo presenta AlignVAR, un marco de autoregresión visual globalmente consistente para la superresolución de imágenes que aborda la fragmentación espacial y la acumulación de errores mediante la autoregresión de consistencia espacial y la restricción de consistencia jerárquica, logrando una mayor coherencia estructural y fidelidad perceptual con una inferencia significativamente más rápida y menos parámetros que los enfoques basados en difusión.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

El artículo presenta SOLACE, un marco de post-entrenamiento que mejora la generación de imágenes a partir de texto mediante recompensas intrínsecas de autoconfianza derivadas de la capacidad del modelo para recuperar ruido inyectado, logrando así optimización no supervisada y mejoras en la alineación texto-imagen sin necesidad de anotaciones externas.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

El artículo presenta Dr. Occ, un marco de predicción de ocupación 3D guiado por profundidad y regiones que utiliza un transformador de vista 2D-a-3D basado en MoGe-2 y un transformador de expertos adaptativo para resolver problemas de desalineación geométrica y desequilibrio espacial, logrando mejoras significativas en el rendimiento sobre el conjunto de datos Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

El artículo presenta FreeAct, un nuevo marco de cuantización para modelos de lenguaje grandes que supera las limitaciones de los métodos estáticos al asignar matrices de transformación dinámicas específicas para cada tipo de token, logrando así mejoras significativas en el rendimiento de modelos multimodales y de difusión.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

El artículo presenta Kiwi-Edit, un marco unificado que supera las limitaciones del control visual en la edición de video mediante instrucciones y referencias, apoyado por un pipeline escalable de generación de datos que crea el conjunto RefVIE y demuestra un nuevo estado del arte en la fidelidad y seguimiento de instrucciones.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Track4World es un modelo feedforward que permite un seguimiento 3D denso y eficiente de todos los píxeles en un sistema de coordenadas centrado en el mundo, superando las limitaciones de métodos anteriores al estimar simultáneamente flujos 2D y 3D mediante una nueva correlación 3D sobre una representación global de la escena.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

El artículo presenta PVT-GDLA, un descodificador basado en transformadores que utiliza una atención lineal diferencial con compuertas para lograr segmentación médica de alta fidelidad y eficiencia computacional, superando las limitaciones de los modelos actuales al preservar bordes anatómicos precisos con complejidad lineal.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

El artículo presenta MultiShadow, un enfoque basado en modelos de difusión que genera sombras físicamente plausibles y consistentes para múltiples objetos insertados en una escena mediante la integración de características espaciales densas y tokens de posición aprendidos, superando así las limitaciones de los métodos existentes enfocados en objetos individuales.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

El artículo presenta IoUCert, un marco de verificación formal novedoso que supera las dificultades de las transformaciones no lineales y las métricas IoU para permitir, por primera vez, la verificación de robustez en modelos de detección de objetos basados en anclajes reales como SSD y YOLO.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Los autores proponen un marco de traducción no emparejado basado en el Puente de Schrödinger Neuronal, enriquecido con emparejamiento de distribuciones guiado por difusión y regularizadores de preservación anatómica, para mejorar la calidad y el realismo de las imágenes de resonancia magnética cerebral de campo ultra bajo (64 mT) alineándolas con las de alto campo (3 T).

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

← Anterior Siguiente →