cs.CV artículos | Gist.Science

SARAH: Spatially Aware Real-time Agentic Humans

El paper presenta SARAH, un método causal en tiempo real que habilita agentes conversacionales con conciencia espacial en entornos de realidad virtual, logrando movimientos corporales naturales sincronizados con el habla y la posición del usuario a más de 300 FPS.

Evonne Ng, Siwei Zhang, Zhang Chen + 2 more2026-02-23💻 cs

Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

El artículo presenta MemStream, un enfoque que escala el presupuesto de tokens y utiliza una estrategia de selección adaptativa junto con un sistema de expertos de mezcla sin entrenamiento para mejorar la comprensión de videos en streaming y el razonamiento en preguntas y respuestas (VQA), logrando mejoras significativas en benchmarks como CG-Bench, LVBench y VideoMME.

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam + 2 more2026-02-23💻 cs

GRIHA: Synthesizing 2-Dimensional Building Layouts from Images Captured using a Smart Phone

El artículo presenta GRIHA, un marco de trabajo eficiente que genera planos de planta 2D de interiores utilizando únicamente imágenes RGB capturadas con teléfonos inteligentes y tecnología SLAM integrada (ARCore), superando así las limitaciones de hardware especializado y la necesidad de imágenes panorámicas sin oclusiones de los métodos existentes.

Shreya Goyal, Naimul Khan, Chiranjoy Chattopadhyay + 1 more2026-02-20💻 cs

Knowledge driven Description Synthesis for Floor Plan Interpretation

Este artículo presenta dos modelos, DSIC y TBDG, que utilizan redes neuronales profundas para generar descripciones flexibles y detalladas de planos arquitectónicos a partir de imágenes, superando las limitaciones de rigidez y falta de detalle de los métodos existentes mediante la síntesis de texto basada en claves visuales y palabras clave.

Shreya Goyal, Chiranjoy Chattopadhyay, Gaurav Bhatnagar2026-02-20💻 cs

MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints

El artículo presenta MotionHint, un algoritmo de odometría visual monocular auto-supervisado que utiliza un modelo de movimiento basado en redes neuronales (PPnet) para guiar a los sistemas existentes y reducir significativamente el error de trayectoria absoluta en el conjunto de datos KITTI.

Cong Wang, Yu-Ping Wang, Dinesh Manocha2026-02-20💻 cs

Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar

Este artículo presenta {\name}, un método que utiliza puntos neuronales guiados por la superficie y mapeo UV de alta resolución para generar avatares volumétricos de cabeza fotorrealistas y dinámicos, superando las limitaciones de las técnicas anteriores en regiones faciales complejas y estructuras delgadas mediante innovaciones que mejoran la eficiencia de entrenamiento y renderizado.

Cong Wang, Di Kang, Yan-Pei Cao + 3 more2026-02-20💻 cs

LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference

El artículo presenta LoLep, un método novedoso para la síntesis de vistas a partir de una sola imagen que utiliza planos aprendidos localmente y un mecanismo de autoatención para inferir oclusiones, logrando resultados de vanguardia en diversas bases de datos.

Cong Wang, Yu-Ping Wang, Dinesh Manocha2026-02-20💻 cs

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

El artículo presenta MeGA, un avatar híbrido de cabeza que combina una malla FLAME mejorada para la cara y una representación basada en Gaussians 3D para el cabello, logrando así un renderizado de alta fidelidad y capacidades de edición que superan a los métodos anteriores al abordar las distintas características de los componentes faciales y capilares.

Cong Wang, Di Kang, He-Yi Sun + 4 more2026-02-20💻 cs

Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis

Esta investigación propone un marco innovador de tres pasos para mejorar la detección y el seguimiento de objetos en videos panorámicos de ciclistas, superando las limitaciones de distorsión y continuidad de bordes para analizar factores de riesgo y detectar adelantamientos en entornos urbanos reales.

Jingwei Guo, Yitai Cheng, Meihui Wang + 5 more2026-02-20💻 cs

Improved Single Camera BEV Perception Using Multi-Camera Training

Este artículo presenta un método de percepción BEV para inferencia con una sola cámara que, mediante el uso de una máscara moderna, un ciclo de tasa de aprendizaje y una pérdida de reconstrucción de características durante el entrenamiento con múltiples cámaras, supera el rendimiento de los modelos entrenados exclusivamente con una o seis cámaras, reduciendo las alucinaciones y mejorando la calidad del mapa.

Daniel Busch, Ido Freeman, Richard Meyes + 1 more2026-02-20💻 cs

Multi-View 3D Reconstruction using Knowledge Distillation

Este artículo propone un pipeline de destilación de conocimiento que utiliza Dust3r como modelo maestro para entrenar modelos estudiantiles más eficientes en el conjunto de datos 12Scenes, demostrando mediante estudios comparativos y de ablación que la arquitectura basada en Vision Transformer logra el mejor rendimiento en la reconstrucción 3D multi-vista.

Aditya Dutt, Ishikaa Lunawat, Manpreet Kaur2026-02-20🤖 cs.AI

Unlocking [CLS] Features for Continual Post-Training

Este artículo presenta TOSCA, un método de ajuste fino post-entrenamiento que utiliza módulos LuCA dispersos a nivel de token en el token [CLS] para lograr un equilibrio óptimo entre estabilidad y plasticidad en el aprendizaje continuo, logrando un rendimiento superior con una reducción de parámetros de aproximadamente 8 veces en comparación con métodos anteriores.

Murat Onur Yildirim, Elif Ceren Gok Yildirim, Joaquin Vanschoren2026-02-20🤖 cs.LG

Simple Self Organizing Map with Vision Transformers

Este estudio presenta un enfoque novedoso que combina Vision Transformers (ViTs) con Mapas Autoorganizados (SOMs) para superar las limitaciones de los ViTs en conjuntos de datos pequeños, logrando un rendimiento significativamente mejorado en tareas supervisadas y no supervisadas gracias a la preservación de la topología espacial inherente a los SOMs.

Alan Luo, Kaiwen Yuan2026-02-20🤖 cs.AI

Cert-SSBD: Certified Backdoor Defense with Sample-Specific Smoothing Noises

Este artículo presenta Cert-SSB, un método de defensa certificada contra ataques de puerta trasera que mejora el rendimiento al optimizar el nivel de ruido de suavizado específico para cada muestra y emplear un mecanismo de certificación basado en actualización de almacenamiento para ajustar dinámicamente las regiones de certificación.

Ting Qiao, Yingjia Wang, Xing Liu + 3 more2026-02-20🤖 cs.AI

Attention-Enhanced U-Net for Accurate Segmentation of COVID-19 Infected Lung Regions in CT Scans

Este estudio propone un método robusto basado en una arquitectura U-Net modificada con mecanismos de atención para la segmentación automática de regiones pulmonares infectadas por COVID-19 en tomografías computarizadas, logrando un coeficiente Dice de 0.8658 y superando a otros métodos existentes.

Amal Lahchim, Lazar Davic2026-02-20⚡ eess

Towards Scalable Language-Image Pre-training for 3D Medical Imaging

Este trabajo presenta HLIP, un marco de pre-entrenamiento escalable para imágenes médicas 3D que utiliza un mecanismo de atención jerárquica sobre estudios clínicos no curados para lograr un rendimiento superior en benchmarks de MRI cerebral y TC de cabeza.

Chenhui Zhao, Yiwei Lyu, Asadur Chowdury + 6 more2026-02-20💻 cs

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies

Este artículo propone un modelo híbrido de convolución-transformer consciente de la demografía, que combina radiografías de muñeca con la edad y el sexo del paciente mediante enmascaramiento progresivo de metadatos, para mejorar el reconocimiento de patologías pediátricas al abordar la variabilidad anatómica normal y demostrar que la inicialización con preentrenamiento en datos de granularidad fina supera a los enfoques tradicionales.

Ammar Ahmed, Ali Shariq Imran, Zenun Kastrati + 1 more2026-02-20🤖 cs.AI

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Este artículo presenta MCIF, el primer benchmark humano anotado y multilingüe basado en charlas científicas que evalúa de manera integral la capacidad de los modelos de lenguaje multimodal para seguir instrucciones en contextos cruzados de idioma, modalidad y longitud de entrada.

Sara Papi, Maike Züfle, Marco Gaido + 5 more2026-02-20💬 cs.CL

Sufficient, Necessary and Complete Causal Explanations in Image Classification

Este artículo presenta un marco formal y riguroso para generar explicaciones causales completas, suficientes y necesarias en la clasificación de imágenes mediante algoritmos de caja negra que no requieren acceso interno al modelo ni a sus gradientes, demostrando su viabilidad computacional y equivalencia con las explicaciones lógicas.

David A Kelly, Hana Chockler2026-02-20🤖 cs.AI

PP-Motion: Physical-Perceptual Fidelity Evaluation for Human Motion Generation

El artículo presenta PP-Motion, una nueva métrica basada en datos que evalúa la fidelidad de la generación de movimiento humano integrando tanto la alineación física objetiva como la percepción humana, superando así las limitaciones de los métodos anteriores al proporcionar anotaciones continuas y de alta granularidad.

Sihan Zhao, Zixuan Wang, Tianyu Luan + 5 more2026-02-20💻 cs

← Anterior Siguiente →