cs.CV artículos | Gist.Science

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

El artículo presenta Dr. Seg, un marco de entrenamiento basado en GRPO diseñado específicamente para modelos de lenguaje visual grandes que aborda las limitaciones de los paradigmas de razonamiento en tareas de percepción mediante mecanismos de confirmación y recompensas estables, mejorando así el rendimiento en escenarios visuales complejos sin requerir modificaciones arquitectónicas.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

El artículo presenta AlignVAR, un marco de autoregresión visual globalmente consistente para la superresolución de imágenes que aborda la fragmentación espacial y la acumulación de errores mediante la autoregresión de consistencia espacial y la restricción de consistencia jerárquica, logrando una mayor coherencia estructural y fidelidad perceptual con una inferencia significativamente más rápida y menos parámetros que los enfoques basados en difusión.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

El artículo presenta SOLACE, un marco de post-entrenamiento que mejora la generación de imágenes a partir de texto mediante recompensas intrínsecas de autoconfianza derivadas de la capacidad del modelo para recuperar ruido inyectado, logrando así optimización no supervisada y mejoras en la alineación texto-imagen sin necesidad de anotaciones externas.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

El artículo presenta Dr. Occ, un marco de predicción de ocupación 3D guiado por profundidad y regiones que utiliza un transformador de vista 2D-a-3D basado en MoGe-2 y un transformador de expertos adaptativo para resolver problemas de desalineación geométrica y desequilibrio espacial, logrando mejoras significativas en el rendimiento sobre el conjunto de datos Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

El artículo presenta FreeAct, un nuevo marco de cuantización para modelos de lenguaje grandes que supera las limitaciones de los métodos estáticos al asignar matrices de transformación dinámicas específicas para cada tipo de token, logrando así mejoras significativas en el rendimiento de modelos multimodales y de difusión.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

El artículo presenta Kiwi-Edit, un marco unificado que supera las limitaciones del control visual en la edición de video mediante instrucciones y referencias, apoyado por un pipeline escalable de generación de datos que crea el conjunto RefVIE y demuestra un nuevo estado del arte en la fidelidad y seguimiento de instrucciones.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Track4World es un modelo feedforward que permite un seguimiento 3D denso y eficiente de todos los píxeles en un sistema de coordenadas centrado en el mundo, superando las limitaciones de métodos anteriores al estimar simultáneamente flujos 2D y 3D mediante una nueva correlación 3D sobre una representación global de la escena.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

El artículo presenta PVT-GDLA, un descodificador basado en transformadores que utiliza una atención lineal diferencial con compuertas para lograr segmentación médica de alta fidelidad y eficiencia computacional, superando las limitaciones de los modelos actuales al preservar bordes anatómicos precisos con complejidad lineal.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

El artículo presenta MultiShadow, un enfoque basado en modelos de difusión que genera sombras físicamente plausibles y consistentes para múltiples objetos insertados en una escena mediante la integración de características espaciales densas y tokens de posición aprendidos, superando así las limitaciones de los métodos existentes enfocados en objetos individuales.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

El artículo presenta IoUCert, un marco de verificación formal novedoso que supera las dificultades de las transformaciones no lineales y las métricas IoU para permitir, por primera vez, la verificación de robustez en modelos de detección de objetos basados en anclajes reales como SSD y YOLO.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Los autores proponen un marco de traducción no emparejado basado en el Puente de Schrödinger Neuronal, enriquecido con emparejamiento de distribuciones guiado por difusión y regularizadores de preservación anatómica, para mejorar la calidad y el realismo de las imágenes de resonancia magnética cerebral de campo ultra bajo (64 mT) alineándolas con las de alto campo (3 T).

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

El artículo presenta TumorFlow, un marco generativo guiado por física que sintetiza secuencias de resonancia magnética cerebral tridimensionales realistas y temporalmente coherentes para visualizar la progresión y la infiltración del glioblastoma en pacientes específicos, combinando modelos de crecimiento biológico con aprendizaje profundo para mejorar la planificación del tratamiento y la generación de datos sintéticos.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

El artículo presenta NOVA3R, un enfoque innovador que utiliza un mecanismo de tokens de escena y un decodificador basado en difusión para realizar una reconstrucción 3D amodal completa a partir de imágenes sin pose, superando las limitaciones de alineación con píxeles de los métodos anteriores.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Este artículo presenta un marco unificado de detección conjunta para lacunas y espacios perivasculares agrandados que, mediante mecanismos de atención cruzada inicializada en cero, pérdidas de consistencia topológica y calibración inferencial anatómica, supera el estado del arte en precisión y robustez al resolver los desafíos de interferencia de características y desequilibrio de clases en la enfermedad de los vasos sanguíneos cerebrales.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

El artículo presenta "Gaussian Wardrobe", un marco innovador que utiliza una representación composicional de 3D Gaussianas para digitalizar avatares neuronales a partir de videos multivista, permitiendo la descomposición de prendas de vestir independientes del cuerpo para lograr una alta fidelidad dinámica y un ensayo virtual libre y reutilizable.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Este estudio demuestra que la alineación lingüística mediante el método de "Semantic Anchoring" supera el colapso semántico en modelos de patología computacional, permitiendo una generalización efectiva entre especies y tipos de cáncer al reorientar las características visuales sin necesidad de reentrenamiento.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Este artículo propone el marco "Dual Tuning" para cuantificar cuándo el razonamiento es beneficioso en tareas multimodales, estableciendo un "límite de pensamiento" que desafía el paradigma de razonar para todo y guía estrategias de entrenamiento más eficientes.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

SkillNet es una infraestructura abierta que crea, evalúa y conecta habilidades de IA a gran escala mediante una ontología unificada y un repositorio de más de 200.000 habilidades, logrando mejorar significativamente el rendimiento de los agentes al permitirles acumular y transferir conocimientos en lugar de reinventar soluciones.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Este artículo presenta un enfoque de aprendizaje profundo multi-modal que integra redes neuronales convolucionales 3D, datos de pose humana y detección de objetos mediante mecanismos de atención cruzada para mejorar la precisión en el reconocimiento de actividades diarias en entornos de asistencia ambiental para adultos mayores.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Este artículo presenta InverseNet, el primer benchmark transversal que demuestra cómo la desviación del operador físico degrada drásticamente el rendimiento de los métodos de aprendizaje profundo en la imagen compresiva, revelando que las arquitecturas condicionadas al operador y la calibración ciega son esenciales para recuperar la precisión perdida.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

← Anterior Siguiente →