cs.CV artículos | Gist.Science

LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference

El artículo presenta LoLep, un método novedoso para la síntesis de vistas a partir de una sola imagen que utiliza planos aprendidos localmente y un mecanismo de autoatención para inferir oclusiones, logrando resultados de vanguardia en diversas bases de datos.

Cong Wang, Yu-Ping Wang, Dinesh Manocha2026-02-20💻 cs

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

El artículo presenta MeGA, un avatar híbrido de cabeza que combina una malla FLAME mejorada para la cara y una representación basada en Gaussians 3D para el cabello, logrando así un renderizado de alta fidelidad y capacidades de edición que superan a los métodos anteriores al abordar las distintas características de los componentes faciales y capilares.

Cong Wang, Di Kang, He-Yi Sun + 4 more2026-02-20💻 cs

Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis

Esta investigación propone un marco innovador de tres pasos para mejorar la detección y el seguimiento de objetos en videos panorámicos de ciclistas, superando las limitaciones de distorsión y continuidad de bordes para analizar factores de riesgo y detectar adelantamientos en entornos urbanos reales.

Jingwei Guo, Yitai Cheng, Meihui Wang + 5 more2026-02-20💻 cs

Improved Single Camera BEV Perception Using Multi-Camera Training

Este artículo presenta un método de percepción BEV para inferencia con una sola cámara que, mediante el uso de una máscara moderna, un ciclo de tasa de aprendizaje y una pérdida de reconstrucción de características durante el entrenamiento con múltiples cámaras, supera el rendimiento de los modelos entrenados exclusivamente con una o seis cámaras, reduciendo las alucinaciones y mejorando la calidad del mapa.

Daniel Busch, Ido Freeman, Richard Meyes + 1 more2026-02-20💻 cs

Multi-View 3D Reconstruction using Knowledge Distillation

Este artículo propone un pipeline de destilación de conocimiento que utiliza Dust3r como modelo maestro para entrenar modelos estudiantiles más eficientes en el conjunto de datos 12Scenes, demostrando mediante estudios comparativos y de ablación que la arquitectura basada en Vision Transformer logra el mejor rendimiento en la reconstrucción 3D multi-vista.

Aditya Dutt, Ishikaa Lunawat, Manpreet Kaur2026-02-20🤖 cs.AI

Unlocking [CLS] Features for Continual Post-Training

Este artículo presenta TOSCA, un método de ajuste fino post-entrenamiento que utiliza módulos LuCA dispersos a nivel de token en el token [CLS] para lograr un equilibrio óptimo entre estabilidad y plasticidad en el aprendizaje continuo, logrando un rendimiento superior con una reducción de parámetros de aproximadamente 8 veces en comparación con métodos anteriores.

Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren2026-02-20🤖 cs.LG

Simple Self Organizing Map with Vision Transformers

Este estudio presenta un enfoque novedoso que combina Vision Transformers (ViTs) con Mapas Autoorganizados (SOMs) para superar las limitaciones de los ViTs en conjuntos de datos pequeños, logrando un rendimiento significativamente mejorado en tareas supervisadas y no supervisadas gracias a la preservación de la topología espacial inherente a los SOMs.

Alan Luo, Kaiwen Yuan2026-02-20🤖 cs.AI

Cert-SSBD: Certified Backdoor Defense with Sample-Specific Smoothing Noises

Este artículo presenta Cert-SSB, un método de defensa certificada contra ataques de puerta trasera que mejora el rendimiento al optimizar el nivel de ruido de suavizado específico para cada muestra y emplear un mecanismo de certificación basado en actualización de almacenamiento para ajustar dinámicamente las regiones de certificación.

Ting Qiao, Yingjia Wang, Xing Liu + 3 more2026-02-20🤖 cs.AI

Attention-Enhanced U-Net for Accurate Segmentation of COVID-19 Infected Lung Regions in CT Scans

Este estudio propone un método robusto basado en una arquitectura U-Net modificada con mecanismos de atención para la segmentación automática de regiones pulmonares infectadas por COVID-19 en tomografías computarizadas, logrando un coeficiente Dice de 0.8658 y superando a otros métodos existentes.

Amal Lahchim, Lazar Davic2026-02-20⚡ eess

Towards Scalable Language-Image Pre-training for 3D Medical Imaging

Este trabajo presenta HLIP, un marco de pre-entrenamiento escalable para imágenes médicas 3D que utiliza un mecanismo de atención jerárquica sobre estudios clínicos no curados para lograr un rendimiento superior en benchmarks de MRI cerebral y TC de cabeza.

Chenhui Zhao, Yiwei Lyu, Asadur Chowdury + 6 more2026-02-20💻 cs

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies

Este artículo propone un modelo híbrido de convolución-transformer consciente de la demografía, que combina radiografías de muñeca con la edad y el sexo del paciente mediante enmascaramiento progresivo de metadatos, para mejorar el reconocimiento de patologías pediátricas al abordar la variabilidad anatómica normal y demostrar que la inicialización con preentrenamiento en datos de granularidad fina supera a los enfoques tradicionales.

Ammar Ahmed, Ali Shariq Imran, Zenun Kastrati + 1 more2026-02-20🤖 cs.AI

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Este artículo presenta MCIF, el primer benchmark humano anotado y multilingüe basado en charlas científicas que evalúa de manera integral la capacidad de los modelos de lenguaje multimodal para seguir instrucciones en contextos cruzados de idioma, modalidad y longitud de entrada.

Sara Papi, Maike Züfle, Marco Gaido + 5 more2026-02-20💬 cs.CL

Sufficient, Necessary and Complete Causal Explanations in Image Classification

Este artículo presenta un marco formal y riguroso para generar explicaciones causales completas, suficientes y necesarias en la clasificación de imágenes mediante algoritmos de caja negra que no requieren acceso interno al modelo ni a sus gradientes, demostrando su viabilidad computacional y equivalencia con las explicaciones lógicas.

David A Kelly, Hana Chockler2026-02-20🤖 cs.AI

PP-Motion: Physical-Perceptual Fidelity Evaluation for Human Motion Generation

El artículo presenta PP-Motion, una nueva métrica basada en datos que evalúa la fidelidad de la generación de movimiento humano integrando tanto la alineación física objetiva como la percepción humana, superando así las limitaciones de los métodos anteriores al proporcionar anotaciones continuas y de alta granularidad.

Sihan Zhao, Zixuan Wang, Tianyu Luan + 5 more2026-02-20💻 cs

VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip

El artículo presenta VSF (Value Sign Flip), un método simple y eficiente que mejora la adherencia a los prompts negativos en modelos de generación de imágenes y video de pocos pasos al invertir el signo de los valores de atención, superando a técnicas existentes como CFG y NAG con un bajo costo computacional.

Wenqi Guo, Shan Du2026-02-20💻 cs

CoreEditor: Correspondence-constrained Diffusion for Consistent 3D Editing

El artículo presenta CoreEditor, un marco innovador para la edición 3D basada en texto que garantiza consistencia entre múltiples vistas mediante un mecanismo de atención restringido por correspondencia que combina alineación geométrica y similitud semántica, superando así las limitaciones de métodos anteriores en cuanto a nitidez y control del usuario.

Zhe Zhu, Honghua Chen, Peng Li + 1 more2026-02-20💻 cs

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Este trabajo presenta Bongard-RWR+, un conjunto de datos ampliado de 5.400 instancias que utiliza imágenes generadas por modelos de lenguaje visuales para representar conceptos abstractos de problemas Bongard en escenarios realistas, demostrando que, aunque los modelos actuales reconocen conceptos visuales generales, siguen teniendo dificultades significativas para discernir conceptos finos y realizar razonamiento abstracto.

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk2026-02-20🤖 cs.AI

Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model

El modelo Point Linguist (PLM) es un marco general que supera la desalineación entre los grandes modelos de lenguaje y las nubes de puntos 3D mediante la introducción de representaciones discriminativas centradas en objetos y un decodificador de reactivación geométrica, logrando así una segmentación de objetos precisa y robusta sin necesidad de pre-alineación a gran escala.

Zhuoxu Huang, Mingqi Gao, Jungong Han2026-02-20💻 cs

PyRadiomics-cuda: 3D features extraction from medical images for HPC using GPU acceleration

PyRadiomics-cuda es una extensión acelerada por GPU de la biblioteca PyRadiomics que reduce drásticamente el tiempo de extracción de características tridimensionales en imágenes médicas, manteniendo la compatibilidad total con la API original para su integración transparente en flujos de trabajo de IA.

Jakub Lisowski, Piotr Tyrakowski, Szymon Zyguła + 1 more2026-02-20💻 cs

Inference-Time Search Using Side Information for Diffusion-Based Image Reconstruction

Este trabajo propone un algoritmo de búsqueda en tiempo de inferencia que utiliza información lateral para guiar el proceso de muestreo de modelos de difusión y mejorar la reconstrucción de imágenes en problemas inversos, ofreciendo una solución plug-and-play sin entrenamiento que supera a los métodos existentes.

Mahdi Farahbakhsh, Vishnu Teja Kunde, Dileep Kalathil + 2 more2026-02-20🤖 cs.AI

← Anterior Siguiente →