cs.CV artículos | Gist.Science

Monocular Normal Estimation via Shading Sequence Estimation

El artículo presenta RoSE, un nuevo enfoque que reformula la estimación de normales monoculares como la predicción de secuencias de sombreado mediante modelos generativos de imagen a video, logrando un rendimiento superior al estado del arte al resolver problemas de desalineación geométrica.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artículo propone un marco de presupuestado de picos consciente de la energía para el aprendizaje continuo en redes neuronales de spiking, que integra replay de experiencia y parámetros neuronales adaptables para optimizar simultáneamente la precisión y la eficiencia energética en sistemas de visión neuromórfica tanto para datos basados en fotogramas como en eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Este artículo propone TCMax, un método de clasificación multimodal que maximiza la correlación total entre las características y las etiquetas mediante una nueva estimación neural (TCNE) para resolver la competencia entre modalidades y superar el rendimiento de los enfoques unimodales y conjuntos existentes.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

El paper presenta B-DENSE, un marco innovador que mejora la eficiencia de la destilación en modelos de difusión mediante un alineamiento de trayectoria denso y multirrama, permitiendo que el modelo estudiante aprenda pasos intermedios completos para generar imágenes de mayor calidad con menor latencia.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

El artículo presenta CoPeDiT, un modelo de difusión latente basado en transformadores que utiliza percepción de completitud autoaprendida para sintetizar de manera unificada y robusta imágenes de resonancia magnética 3D, superando las limitaciones de los métodos existentes al eliminar la dependencia de guías externas manuales.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

El artículo presenta ChimeraLoRA, un método que combina un LoRA compartido por clase con LoRAs específicos por imagen para generar conjuntos de datos sintéticos diversos y detallados que mejoran el rendimiento de clasificación en escenarios de escasez de datos.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

El artículo presenta OrthoAI, un marco neurosimbólico que integra segmentación de puntos dentales con supervisión escasa, inferencia de restricciones biomecánicas basada en ontologías y evaluación multicriterio para apoyar la toma de decisiones clínicas en ortodoncia con alineadores transparentes.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artículo presenta un marco de doble flujo para la segmentación de imágenes de aves que combina Grounding DINO 1.5 y YOLOv11 con el modelo SAM 2.1, logrando resultados de vanguardia tanto en modo cero disparos como supervisado al superar las redes de segmentación tradicionales sin necesidad de reentrenar el modelo de segmentación.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

El documento presenta DOCFORGE-BENCH, el primer benchmark unificado de cero disparos para la detección de falsificaciones documentales, que revela que el principal obstáculo para el despliegue práctico no es la capacidad de discriminación de los modelos, sino una falla de calibración crítica causada por la baja proporción de píxeles alterados, la cual puede mitigarse mediante la adaptación del umbral sin necesidad de reentrenamiento.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

El artículo presenta Pri4R, un enfoque que mejora los modelos de Visión-Lenguaje-Acción (VLA) al incorporar dinámicas del mundo mediante el aprendizaje de trayectorias de puntos 3D durante el entrenamiento, logrando así un control físico más preciso sin añadir sobrecarga computacional en la inferencia.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Esta revisión analiza el panorama de los procesadores de IA de ultra bajo consumo, comparando arquitecturas heterogéneas, aceleradores neuronales y diseños en el sensor, y valida empíricamente el rendimiento de tres plataformas representativas (GAP9, STM32N6 e IMX500) para demostrar la superioridad de la computación en el sensor en términos de eficiencia energética y latencia.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Granulon es un nuevo modelo de lenguaje multimodal basado en DINOv3 que supera las limitaciones de los encoders visuales actuales mediante un controlador de granularidad condicionado por texto y una agregación de tokens adaptativa, logrando un razonamiento unificado de nivel de píxel a concepto global que mejora la precisión y reduce las alucinaciones.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Este artículo presenta un marco de marca de agua nativo para la representación 3D Gaussian Splatting que, mediante un módulo de expertos y un mecanismo de seguridad, logra una robustez superior frente a distorsiones y una alta fidelidad visual, al tiempo que ofrece explicabilidad auditable sobre la selección de portadores de la información.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

El artículo presenta VisionCreator-R1, un agente nativo de generación visual que incorpora mecanismos de reflexión explícita y un método de entrenamiento de co-optimización reflexión-plan (RPCO) para corregir errores en tiempo real, superando consistentemente a modelos como Gemini2.5Pro en tareas de generación de imágenes individuales y múltiples.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Esta investigación presenta un sistema inteligente de asignación de plazas de aparcamiento basado en visión por computadora y el modelo YOLOv8, que utiliza mapeo de perspectiva inversa para integrar vistas de múltiples cámaras y simular un entorno 3D que guía a los usuarios hacia espacios vacíos de manera eficiente y económica.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

El artículo presenta MuCTaL, un marco de aprendizaje profundo ligero y generalizable entrenado con datos de cuatro tipos de cáncer que logra una localización precisa de tumores en imágenes de patología digital y demuestra capacidad de adaptación a tipos tumorales no vistos, como el adenocarcinoma pancreático.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR es un pipeline generativo que permite un control composicional fino en la generación de videos mediante referencias híbridas de imágenes y videos estáticos o dinámicos, junto con la especificación explícita de trayectorias para cada elemento.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Este artículo presenta un marco sistemático que demuestra mediante ataques de parche físicos en simulación CARLA que las arquitecturas de modelos visión-idioma (VLM) para conducción autónoma, como Dolphins, OmniDrive y LeapVAD, son severamente vulnerables a perturbaciones adversarias, revelando fallos críticos en la detección de objetos y patrones de vulnerabilidad específicos en cada diseño.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

Este trabajo introduce la segmentación de consultas visuales (VQS) como un nuevo paradigma para localizar todos los objetos de interés a nivel de píxel en videos no recortados, presentando el benchmark VQS-4K y el método VQ-SAM, que supera a las técnicas existentes al extender SAM 2 mediante un marco de memoria adaptativa.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Este artículo propone adaptadores de decodificador de múltiples núcleos con puertas (MKGA) que, al combinar las fortalezas de las CNN y los ViT para preservar simultáneamente las texturas y las geometrías bajo desplazamientos de dominio entre centros, mejoran la robustez en la segmentación y el diagnóstico de malignidad en ecografías tiroideas multi-tarea.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

← Anterior Siguiente →