cs.CV artículos | Gist.Science

Progressive Checkerboards for Autoregressive Multiscale Image Generation

Este trabajo presenta un método de generación de imágenes autoregresivas multiescala basado en tableros de ajedrez progresivos que permite muestrear regiones independientes en paralelo manteniendo dependencias mutuas, logrando un rendimiento competitivo en ImageNet con menos pasos de muestreo.

David Eigen2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

El artículo presenta V-Retrver, un marco de recuperación multimodal impulsado por evidencia que reformula el proceso como un razonamiento agencial interactivo, donde un modelo de lenguaje multimodal utiliza herramientas visuales externas para verificar activamente la información y superar las limitaciones de los enfoques puramente lingüísticos, logrando mejoras significativas en la precisión y fiabilidad del razonamiento.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Este estudio demuestra que, aunque los modelos fundacionales alcanzan una discriminación equivalente a los modelos específicos en la detección de lesiones intestinales por trauma abdominal, su menor especificidad se debe principalmente a la heterogeneidad de las patologías concurrentes en la clase negativa, lo que indica la necesidad de un entrenamiento específico antes de su implementación clínica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Este trabajo propone un marco de descomposición tensorial multi-vista que, al analizar videos de pasos a nivel mediante embeddings de TimeSformer, descubre patrones conductuales latentes agrupados principalmente por ubicación geográfica más que por la hora del día, permitiendo así intervenciones de seguridad más dirigidas.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation

MALLVI es un marco de trabajo basado en agentes múltiples y modelos de lenguaje y visión que mejora la manipulación robótica mediante un bucle de retroalimentación cerrado y la coordinación de agentes especializados para lograr una mayor generalización y tasas de éxito en tareas de manipulación sin entrenamiento previo.

Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani + 3 more2026-02-26🤖 cs.AI

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Este trabajo propone PixTrace y CopyNCE, dos innovaciones que combinan el rastreo de coordenadas de píxeles con una pérdida de contraste guiada geométricamente para mejorar la detección de copias en imágenes mediante el aprendizaje de correspondencias finas y la reducción de ruido en el entrenamiento auto-supervisado.

Yichen Lu, Siwei Nie, Minlong Lu + 3 more2026-02-26🤖 cs.AI

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Este artículo presenta DCAG, un marco de edición de imágenes sin entrenamiento para Transformadores de Difusión (DiT) que, al manipular simultáneamente los canales de Clave y Valor para aprovechar su estructura de sesgo-delta, logra un control más preciso sobre la fidelidad de la edición en comparación con los métodos existentes que solo utilizan el canal de Clave.

Guandong Li2026-02-26🤖 cs.AI

Hyperbolic Busemann Neural Networks

Este trabajo introduce las Redes Neuronales Hiperbólicas Busemann (HBNN), que elevan la regresión logística multinomial y las capas totalmente conectadas al espacio hiperbólico mediante funciones de Busemann, logrando mejoras en eficacia y eficiencia para datos jerárquicos en comparación con capas hiperbólicas anteriores.

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe2026-02-26🤖 cs.AI

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

El artículo presenta GS-CLIP, un marco de aprendizaje profundo que mejora la detección de anomalías 3D sin datos de entrenamiento mediante prompts de texto conscientes de la geometría y un aprendizaje sinérgico de representaciones visuales que fusiona imágenes renderizadas y de profundidad.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

El artículo presenta TherA, un marco de traducción de imágenes RGB a infrarrojos térmicos impulsado por un modelo de difusión latente y un VLM consciente de la física térmica, que genera datos sintéticos térmicamente plausibles y controlables mediante prompts, superando significativamente a los métodos existentes.

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang + 3 more2026-02-26💻 cs

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

Los autores proponen un marco de aprendizaje múltiple (MIL) regularizado espacialmente que aprovecha las relaciones espaciales intrínsecas entre parches como señal de regularización independiente de las etiquetas para superar los desafíos de supervisión escasa en el análisis de imágenes de diapositivas completas, logrando mejoras significativas sobre los métodos actuales.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

RAYNOVA es un modelo fundacional de mundo para escenarios de conducción que, mediante un marco autorregresivo dual basado en codificación posicional de rayos de Plücker y atención global, genera videos multivista de alta calidad y generalizable sin depender de priores geométricos 3D explícitos.

Yichen Xie, Chensheng Peng, Mazen Abdelfattah + 6 more2026-02-26💻 cs

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Este trabajo presenta MMHNet, una arquitectura de redes jerárquicas multimodales que integra Mamba no causal para superar el desafío de la generalización de longitud en la generación de audio a partir de video, permitiendo crear pistas de audio de más de cinco minutos sin necesidad de entrenar con secuencias largas.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Este trabajo presenta cVMDx, un marco de predicción de trayectorias basado en modelos de difusión que utiliza muestreo DDIM para lograr una reducción de 100 veces en el tiempo de inferencia y una estimación robusta de incertidumbre multimodal, superando en precisión y eficiencia al modelo cVMD en el conjunto de datos highD.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

Scaling View Synthesis Transformers

Este artículo presenta un estudio sistemático sobre las leyes de escalado para transformadores de síntesis de vistas, demostrando que una arquitectura codificador-decodificador llamada SVSM alcanza un rendimiento óptimo en relación con el cómputo y supera a los modelos anteriores con menos recursos de entrenamiento.

Evan Kim, Hyunwoo Ryu, Thomas W. Mitchel + 1 more2026-02-26🤖 cs.AI

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

El artículo presenta RelA-Diffusion, un marco de difusión adversarial relativista que sintetiza imágenes de PET multi-rastreador a partir de resonancias magnéticas multimodales (T1 y T2-FLAIR) mediante una pérdida adversarial con penalización de gradiente, logrando una mayor fidelidad visual y cuantitativa que los métodos existentes para la evaluación neurológica.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

Towards Controllable Video Synthesis of Routine and Rare OR Events

Este trabajo presenta un marco de difusión de video para el quirófano que sintetiza eventos rutinarios y raros a partir de representaciones geométricas abstractas, superando a los métodos existentes y permitiendo entrenar modelos de inteligencia artificial para detectar violaciones críticas de esterilidad.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

El artículo presenta MMLoP, un marco de aprendizaje de prompts multi-modal que utiliza factorización de bajo rango para lograr una adaptación eficiente de modelos visión-idioma con solo 11.5K parámetros entrenables, superando en rendimiento y generalización a métodos existentes mucho más grandes.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Este trabajo introduce un enfoque sin entrenamiento para la segmentación temporal de acciones de vocabulario abierto y cero disparos, que aprovecha la similitud entre marcos y etiquetas de modelos de visión-lingüística para lograr resultados sólidos en benchmarks estándar sin supervisión específica de la tarea.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

Este trabajo introduce WildSVG, un nuevo benchmark compuesto por conjuntos de datos naturales y sintéticos para evaluar la extracción de gráficos vectoriales escalables (SVG) a partir de imágenes reales, revelando que los modelos multimodales actuales aún tienen un rendimiento insuficiente en escenarios del mundo real pero que los métodos de refinamiento iterativo ofrecen una vía prometedora.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

← Anterior Siguiente →