cs.CV artículos | Gist.Science

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

El paper presenta StreamDiffusionV2, una tubería de inferencia sin entrenamiento que integra programadores de lotes sensibles a los SLO, cachés KV rotativas y orquestación escalable para lograr generación de video en vivo interactiva con alta consistencia temporal, latencia ultrabaja y escalabilidad casi lineal en entornos multi-GPU heterogéneos.

Tianrui Feng, Zhi Li, Shuo Yang + 11 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

El marco PRISM mejora la destilación de conjuntos de datos al desacoplar los objetivos de ajuste de logits y regularización utilizando múltiples arquitecturas de modelos maestros, lo que genera datos sintéticos con mayor diversidad intraclase y un rendimiento superior en ImageNet-1K en comparación con los métodos existentes.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

El artículo presenta MoDES, un marco de inferencia libre de entrenamiento que acelera los modelos multimodales de lenguaje grande con mezcla de expertos mediante un mecanismo de puerta local modulado globalmente y un umbralizado de doble modalidad, logrando una reducción significativa del tiempo de inferencia sin sacrificar el rendimiento en comparación con métodos anteriores.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

El paper presenta Mantis, un modelo de visión-idioma-acción innovador que utiliza una previsión visual desacoplada mediante consultas meta y un cabezal DiT para mejorar la comprensión, el razonamiento y la eficiencia en tareas de manipulación robótica, logrando un rendimiento superior en benchmarks como LIBERO y evaluaciones del mundo real.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

El artículo presenta GuideFlow, un marco de planificación para conducción autónoma que utiliza un flujo de coincidencia restringido para integrar directamente las limitaciones de seguridad y físicas en el proceso generativo, logrando así evitar el colapso de modos y ofrecer un control preciso sobre la agresividad de la trayectoria, lo que resulta en un rendimiento de vanguardia en varios benchmarks.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

El artículo presenta LocateAnything3D, un modelo nativo de visión-idioma que reformula la detección 3D como un problema de predicción de tokens mediante una secuencia de "Cadena de Visión" que imita el razonamiento humano para lograr resultados de vanguardia en la localización de objetos en 3D.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

El artículo presenta SelfAI, un marco de descubrimiento científico autogestionado y basado en agentes múltiples que automatiza la exploración de hipótesis a largo plazo mediante la traducción de intenciones de investigación en experimentos ejecutables y la toma de decisiones adaptativas, logrando soluciones de alta calidad con menos ensayos redundantes que los métodos tradicionales y basados en LLM.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

El artículo presenta GNVC-VD, un nuevo marco de compresión de video neuronal generativo basado en modelos de difusión que unifica la compresión latente y el refinamiento generativo a nivel de secuencia para eliminar el parpadeo perceptual y mejorar la calidad visual en tasas de bits extremadamente bajas.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging

MedDIFT es un marco de correspondencia 3D sin entrenamiento que aprovecha las características multiescala de un modelo de difusión médica preentrenado para lograr un alineamiento anatómico preciso en imágenes médicas, superando las limitaciones de los métodos basados en similitud de intensidad local.

Xingyu Zhang, Anna Reithmeir, Fryderyk Kögl + 3 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Este trabajo presenta CheXmask-U, un enfoque que cuantifica la incertidumbre en la segmentación anatómica basada en puntos de referencia de radiografías torácicas mediante medidas latentes y predictivas, junto con la liberación de un gran conjunto de datos y herramientas para mejorar la robustez y seguridad de estos métodos.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Este artículo presenta MRD, un enfoque que utiliza renderizado diferenciable basado en física para generar metameros de escenas 3D y así sondear y comprender cómo los modelos de visión artificial interpretan y son sensibles a propiedades físicas subyacentes como la geometría y el material, más allá de las representaciones bidimensionales.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

El marco DL³M propuesto integra un modelo de clasificación híbrido (MobileCoAtNet) con grandes modelos de lenguaje para generar razonamiento clínico estructurado a partir de imágenes endoscópicas, demostrando que, aunque esta combinación mejora la calidad de las explicaciones, los modelos actuales aún carecen de la estabilidad necesaria para decisiones médicas de alto riesgo.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

El artículo presenta FALCON-SFOD, un marco que mejora la detección de objetos libre de fuentes al combinar la regularización del espacio de características mediante modelos fundacionales (SPAR) y un aprendizaje robusto ante el desequilibrio de ruido (IRPL) para mitigar el desplazamiento de dominio y generar pseudolabels más fiables.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

El artículo presenta REVEALER, un marco unificado que utiliza el razonamiento visual guiado por refuerzo para evaluar la alineación entre texto e imagen a nivel de elementos, logrando un rendimiento superior y una mayor eficiencia en comparación con los métodos existentes.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

El artículo presenta Object-WIPER, un marco libre de entrenamiento que elimina objetos dinámicos y sus efectos visuales asociados de los videos mediante un transformador de difusión texto-a-video, logrando una reconstrucción semánticamente consistente y temporalmente coherente sin necesidad de reentrenamiento.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Este artículo presenta LookBench, un benchmark en vivo y holístico para la recuperación de imágenes de moda en entornos de comercio electrónico real, que incorpora imágenes recientes y generadas por IA, se actualiza periódicamente para evitar contaminación en la evaluación y establece nuevos estándares de rendimiento mediante modelos de última generación.

Gensmo. ai, Chao Gao, Siqiao Xue + 5 more2026-02-24💻 cs

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

El artículo presenta PyraTok, un tokenizador piramidal alineado con el lenguaje que aprende latentes discretos semánticamente estructurados a múltiples resoluciones espaciotemporales, logrando un rendimiento de vanguardia en la reconstrucción, generación y comprensión de video, así como en tareas de transferencia cero.

Onkar Susladkar, Tushar Prakash, Adheesh Juvekar + 4 more2026-02-24🤖 cs.AI

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Este trabajo presenta Emotion-LLaMAv2, un marco de aprendizaje multimodal de extremo a extremo con un esquema de ajuste fino curricular, junto con el benchmark MMEVerse, que unifica y reanota doce conjuntos de datos de emociones para superar las limitaciones de los modelos anteriores en el reconocimiento y razonamiento emocional.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Este trabajo presenta FineVAU, un nuevo benchmark para la comprensión de anomalías en video que introduce la métrica alineada con humanos FVScore y el dataset FineW3 para evaluar de manera integral y detallada la capacidad de los modelos de lenguaje visuales en la identificación de eventos, entidades y ubicaciones en situaciones anómalas.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

El artículo presenta RepSFNet, una arquitectura ligera que utiliza reparametrización estructural y fusión de características para lograr un conteo de multitudes preciso y en tiempo real, superando los desafíos de densidad variable y reduciendo significativamente la latencia de inferencia en comparación con los métodos existentes.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

← Anterior Siguiente →

cs.CV