cs.CV artículos | Gist.Science

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

El artículo presenta LinVideo, un marco de post-entrenamiento libre de datos que reduce la complejidad de la atención en la generación de video de cuadrática a lineal mediante una selección automática de capas y un objetivo de coincidencia de distribuciones, logrando aceleraciones significativas sin comprometer la calidad visual.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

El artículo presenta el Modelo de Estado Específico (SSM), un marco innovador que unifica la detección y anticipación de acciones mediante la compresión de estados críticos, el aprendizaje de patrones de acción y la interacción cruzada temporal para modelar la intención del agente, logrando un rendimiento superior en diversos conjuntos de datos.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Este artículo presenta NEO, una nueva familia de Modelos de Visión-Lenguaje (VLM) nativos construidos desde cero que abordan las limitaciones de los modelos modulares mediante primitivas unificadas, logrando un rendimiento competitivo y democratizando el desarrollo de VLMs a gran escala.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Este artículo presenta un marco de evaluación que demuestra cómo la complejidad de los prompts en modelos de texto-a-imagen reduce la diversidad y consistencia de las imágenes generadas, pero disminuye la brecha de distribución con datos reales, siendo la expansión de prompts la intervención que logra el mejor equilibrio entre diversidad, estética y fidelidad al dominio real.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

El artículo presenta MergeMix, un paradigma unificado que combina la fine-tuning supervisada y el aprendizaje por refuerzo mediante una augmentación de mezcla de tokens y una pérdida de margen de preferencia suave, logrando una alineación más eficiente, estable y generalizable en modelos de lenguaje multimodal grandes.

Xin Jin, Siyuan Li, Siyong Jian + 2 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

El artículo presenta SYNAPSE-Net, un marco unificado y adaptativo basado en codificadores convolucionales multi-stream y atención cruzada que logra una segmentación robusta y generalizable de lesiones cerebrales heterogéneas en múltiples modalidades de MRI, superando a modelos específicos de patología en diversos conjuntos de datos públicos.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

El artículo presenta BEAT, un marco pionero que inyecta puertas traseras visuales en agentes encarnados basados en modelos de visión-lingüística mediante el aprendizaje contrastivo de desencadenantes, logrando una activación precisa de políticas maliciosas en entornos reales sin comprometer el rendimiento en tareas benignas.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential

Este artículo presenta una red neuronal convolucional 3D ligera que utiliza datos de cámaras de eventos para el reconocimiento de acciones humanas, logrando una alta precisión y eficiencia en dispositivos de borde mientras preserva la privacidad al evitar la captura de información personal identificable.

Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Este artículo presenta el \textit{Rank-enhancing Token Fuser}, un marco de fusión teóricamente fundamentado que utiliza la rango efectivo para contrarrestar simultáneamente el colapso de características y el colapso de modalidades en la anticipación de acciones humanas, logrando un rendimiento superior al estado del arte mediante la integración de datos de profundidad y RGB.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

El paper presenta StreamDiffusionV2, una tubería de inferencia sin entrenamiento que integra programadores de lotes sensibles a los SLO, cachés KV rotativas y orquestación escalable para lograr generación de video en vivo interactiva con alta consistencia temporal, latencia ultrabaja y escalabilidad casi lineal en entornos multi-GPU heterogéneos.

Tianrui Feng, Zhi Li, Shuo Yang + 11 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

El marco PRISM mejora la destilación de conjuntos de datos al desacoplar los objetivos de ajuste de logits y regularización utilizando múltiples arquitecturas de modelos maestros, lo que genera datos sintéticos con mayor diversidad intraclase y un rendimiento superior en ImageNet-1K en comparación con los métodos existentes.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

El artículo presenta MoDES, un marco de inferencia libre de entrenamiento que acelera los modelos multimodales de lenguaje grande con mezcla de expertos mediante un mecanismo de puerta local modulado globalmente y un umbralizado de doble modalidad, logrando una reducción significativa del tiempo de inferencia sin sacrificar el rendimiento en comparación con métodos anteriores.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

El paper presenta Mantis, un modelo de visión-idioma-acción innovador que utiliza una previsión visual desacoplada mediante consultas meta y un cabezal DiT para mejorar la comprensión, el razonamiento y la eficiencia en tareas de manipulación robótica, logrando un rendimiento superior en benchmarks como LIBERO y evaluaciones del mundo real.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

El artículo presenta GuideFlow, un marco de planificación para conducción autónoma que utiliza un flujo de coincidencia restringido para integrar directamente las limitaciones de seguridad y físicas en el proceso generativo, logrando así evitar el colapso de modos y ofrecer un control preciso sobre la agresividad de la trayectoria, lo que resulta en un rendimiento de vanguardia en varios benchmarks.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

El artículo presenta LocateAnything3D, un modelo nativo de visión-idioma que reformula la detección 3D como un problema de predicción de tokens mediante una secuencia de "Cadena de Visión" que imita el razonamiento humano para lograr resultados de vanguardia en la localización de objetos en 3D.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

El artículo presenta SelfAI, un marco de descubrimiento científico autogestionado y basado en agentes múltiples que automatiza la exploración de hipótesis a largo plazo mediante la traducción de intenciones de investigación en experimentos ejecutables y la toma de decisiones adaptativas, logrando soluciones de alta calidad con menos ensayos redundantes que los métodos tradicionales y basados en LLM.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

El artículo presenta GNVC-VD, un nuevo marco de compresión de video neuronal generativo basado en modelos de difusión que unifica la compresión latente y el refinamiento generativo a nivel de secuencia para eliminar el parpadeo perceptual y mejorar la calidad visual en tasas de bits extremadamente bajas.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging

MedDIFT es un marco de correspondencia 3D sin entrenamiento que aprovecha las características multiescala de un modelo de difusión médica preentrenado para lograr un alineamiento anatómico preciso en imágenes médicas, superando las limitaciones de los métodos basados en similitud de intensidad local.

Xingyu Zhang, Anna Reithmeir, Fryderyk Kögl + 3 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Este trabajo presenta CheXmask-U, un enfoque que cuantifica la incertidumbre en la segmentación anatómica basada en puntos de referencia de radiografías torácicas mediante medidas latentes y predictivas, junto con la liberación de un gran conjunto de datos y herramientas para mejorar la robustez y seguridad de estos métodos.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Este artículo presenta MRD, un enfoque que utiliza renderizado diferenciable basado en física para generar metameros de escenas 3D y así sondear y comprender cómo los modelos de visión artificial interpretan y son sensibles a propiedades físicas subyacentes como la geometría y el material, más allá de las representaciones bidimensionales.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

← Anterior Siguiente →