cs.CV artículos | Gist.Science

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Este estudio utiliza técnicas de interpretabilidad mecánica para revelar los patrones internos de flujo de información en los VideoLLMs, identificando cómo integran progresivamente la información visual y lingüística a través de capas específicas para realizar el razonamiento temporal y demostrando que pueden mantener su rendimiento al suprimir hasta un 58% de las conexiones de atención innecesarias.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Este trabajo presenta "Self-Aug", una estrategia de decodificación sin entrenamiento que mejora la consistencia factual de los Modelos Grandes de Lenguaje y Visión mediante una auto-aumentación dependiente de la consulta y un umbral adaptativo basado en la entropía.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Este trabajo propone un modelo de difusión incondicional entrenado con datos de HiRISE para reconstruir con mayor precisión y coherencia geométrica los mapas de altura de Marte en entornos de realidad virtual, superando significativamente a las técnicas tradicionales de interpolación.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

El artículo presenta CASR-Net, una red de aprendizaje profundo de tres etapas que combina preprocesamiento mejorado, un codificador DenseNet121 con un decodificador Self-ONN y un módulo de refinamiento para lograr una segmentación precisa y robusta de arterias coronarias en angiogramas, superando a modelos existentes en métricas clave como el coeficiente Dice y la intersección sobre unión.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

El artículo presenta Kinematify, un marco automatizado que sintetiza objetos articulados de alto grado de libertad a partir de imágenes RGB o descripciones textuales, superando las limitaciones de los métodos anteriores al inferir topologías cinemáticas y estimar parámetros de articulaciones mediante una combinación de búsqueda MCTS y optimización basada en geometría.

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

El artículo presenta DetGain, un método de curación de datos en línea para detección de objetos que selecciona dinámicamente muestras informativas estimando su contribución marginal a la Precisión Media (AP) del conjunto de datos, logrando mejoras consistentes en la precisión y robustez al integrarse de manera agnóstica con diversas arquitecturas de detección.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

El artículo presenta PrismAudio, un marco pionero que integra aprendizaje por refuerzo con razonamiento de pensamiento en cadena descompuesto y recompensas multidimensionales para resolver la entrelazación de objetivos en la generación de audio a partir de video, logrando un rendimiento superior en consistencia semántica, sincronía temporal, calidad estética y precisión espacial.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

El artículo presenta Markov-VAR, un modelo de generación visual autoregresiva que reformula el proceso como una cadena de Markov mediante una predicción de escala con ventana deslizante, logrando una mayor eficiencia computacional y una mejora significativa en la calidad de las imágenes al reducir el consumo de memoria y el FID sin depender del contexto completo.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

El artículo presenta ALARM, un marco de detección de anomalías visuales basado en modelos de lenguaje multimodales (MLLM) que integra la cuantificación de incertidumbre y técnicas de aseguramiento de calidad para lograr un rendimiento robusto y fiable en entornos complejos y ambiguos.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Este artículo presenta SSMP, un nuevo método de predicción enmascarada auto-ritmada y autocorrectiva que supera el paradigma tradicional de selección y clasificación para la generación de tráilers cinematográficos, logrando resultados de vanguardia mediante la reconstrucción progresiva de secuencias de tomas inspirada en el trabajo humano.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Este trabajo presenta VGG-Flow, un método de ajuste fino basado en la coincidencia de gradientes que utiliza la teoría de control óptimo para alinear modelos de flujo como Stable Diffusion 3 con preferencias humanas de manera eficiente y preservando la distribución previa.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

El artículo presenta AVI-Edit, un marco de edición de instancias en video sincronizado con audio que utiliza un refinador de máscaras consciente de la granularidad y un agente de retroalimentación automática para lograr un control espacial y temporal preciso, respaldado por un nuevo conjunto de datos a gran escala.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

El artículo presenta CHAMMI-75, un conjunto de datos abierto de imágenes de microscopía multicanal heterogéneas procedentes de 75 estudios biológicos, diseñado para entrenar modelos adaptativos que superen las limitaciones de los enfoques actuales al permitir el procesamiento de diversos tipos de imágenes microscópicas.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

El artículo presenta UniDrive-WM, un modelo de mundo unificado basado en modelos de visión-idioma que integra la comprensión de la escena, la planificación de trayectorias y la generación de imágenes futuras en una sola arquitectura, logrando mejoras significativas en la precisión de la planificación y la reducción de colisiones en comparación con los métodos anteriores.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Este estudio demuestra que el uso de representaciones visuales de baja resolución (tan solo 8x8 píxeles) de caracteres chinos como entrada para modelos de lenguaje puede lograr una precisión comparable a los métodos basados en índices tradicionales, ofreciendo además una ventaja significativa en el aprendizaje inicial.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Este artículo presenta LGANet++, un marco de registro de imágenes deformables no supervisado que utiliza un mecanismo de atención local-global y descomposición de imágenes para superar a los métodos actuales en precisión y generalización en escenarios clínicos como el registro entre pacientes, temporal y multimodal.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

El artículo presenta GraSP, un método unificado y versátil para el reconocimiento de gráficos en imágenes mediante la predicción de subgráficos, diseñado para funcionar en diversos contextos sin necesidad de modificaciones específicas para cada tarea.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit es un marco de edición de video sin entrenamiento y basado en flujo que aborda los desafíos de los videos de duración de minutos mediante una estrategia de dividir y conquistar que utiliza los módulos Velocity Blend y Attention Sink para garantizar una consistencia temporal global y una alta eficiencia computacional.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

El artículo presenta VideoTemp-o3, un marco unificado de pensamiento agente para videos que mejora la comprensión de videos largos y la localización temporal mediante un proceso de localización-clip-respuesta optimizado con mecanismos de enmascaramiento, recompensas específicas y datos de alta calidad, superando las limitaciones de los métodos existentes.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

WristMIR es un marco de recuperación de radiografías de muñeca pediátricas que, mediante el aprendizaje guiado por informes de radiología y la atención a regiones anatómicas específicas sin anotaciones manuales, mejora significativamente la precisión en la búsqueda de patrones de fractura y el diagnóstico clínico en comparación con los métodos existentes.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

← Anterior Siguiente →