cs.CV artículos | Gist.Science

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Este trabajo presenta RangeSAM, el primer marco que adapta el modelo visual fundacional SAM2 a la proyección de rango para la segmentación de nubes de puntos LiDAR, logrando un rendimiento competitivo en SemanticKITTI mediante modificaciones arquitectónicas que aprovechan la eficiencia de las técnicas 2D y confirman el potencial de los modelos fundacionales para la percepción 3D.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Este estudio evalúa y combina diversas métricas de similitud representacional, demostrando que la integración de sus facetas complementarias mediante la Fusión de Redes de Similitud permite una clasificación más precisa de modelos artificiales y una reconstrucción más clara de la jerarquía funcional del sistema visual en datos neuronales.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

El paper presenta WAVE, el primer modelo de incrustaciones basado en LLM que unifica texto, audio y video en un espacio de representación común mediante una fusión jerárquica de características y entrenamiento multitarea, logrando un estado del arte en recuperación cruzada y generación de incrustaciones sensibles a instrucciones.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

El artículo presenta CMT (Consistency Mid-Training), un marco de entrenamiento intermedio que estabiliza y acelera significativamente el aprendizaje de modelos de mapas de flujo como los Modelos de Consistencia y el Flujo Medio, logrando resultados de vanguardia con una reducción drástica en el tiempo de cómputo y los datos necesarios en comparación con los métodos anteriores.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

El artículo presenta AlignTok, un método de tres etapas que alinea codificadores visuales preentrenados con tokenizadores para modelos de difusión, logrando una generación de imágenes más rápida y semánticamente rica que los enfoques tradicionales de VAE.

Bowei Chen, Sai Bi, Hao Tan + 6 more2026-02-24💻 cs

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

El artículo presenta SAGE, un pipeline de entrenamiento unificado que mejora el reconocimiento visual de lugares mediante la exploración adaptativa de grafos espaciales-visuales, la agregación de características locales y la minería de muestras difíciles, logrando resultados de vanguardia en múltiples benchmarks con un enfoque eficiente en parámetros.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

Flower: A Flow-Matching Solver for Inverse Problems

El artículo presenta Flower, un solucionador para problemas inversos lineales que utiliza un modelo de flujo preentrenado en un procedimiento iterativo de tres pasos para lograr reconstrucciones consistentes con las mediciones y aproximar el muestreo del posterior bayesiano, logrando un rendimiento de vanguardia con una configuración de hiperparámetros uniforme.

Mehrsa Pourya, Bassam El Rawas, Michael Unser2026-02-24🤖 cs.LG

VIRTUE: Visual-Interactive Text-Image Universal Embedder

El artículo presenta VIRTUE, un nuevo modelo de incrustación universal texto-imagen que integra capacidades de interacción visual para seleccionar regiones específicas, logrando un rendimiento superior en tareas universales y en el nuevo benchmark SCaR de recuperación de descripciones basado en objetos y escenas.

Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu + 2 more2026-02-24🤖 cs.AI

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

El artículo presenta RewardMap, un marco de aprendizaje por refuerzo multi-etapa que supera el problema de las recompensas escasas en el razonamiento visual de alta precisión mediante un diseño de recompensas sensible a la dificultad y una estrategia de entrenamiento escalonada, logrando mejoras significativas en modelos de lenguaje multimodal.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

El artículo presenta OBS-Diff, un marco de poda en un solo paso y sin entrenamiento que adapta el algoritmo clásico Optimal Brain Surgeon a los modelos de difusión mediante una construcción de Hessiana consciente del tiempo y una estrategia de poda secuencial, logrando una aceleración significativa en la inferencia con una degradación mínima en la calidad visual.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

El artículo presenta EDJE, un codificador conjunto discriminativo eficiente que precalcula y comprime tokens visuales para permitir un reordenamiento a gran escala de pares imagen-texto con alto rendimiento y bajo costo computacional, superando las limitaciones de almacenamiento y velocidad de los modelos anteriores.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

El artículo presenta LinVideo, un marco de post-entrenamiento libre de datos que reduce la complejidad de la atención en la generación de video de cuadrática a lineal mediante una selección automática de capas y un objetivo de coincidencia de distribuciones, logrando aceleraciones significativas sin comprometer la calidad visual.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

El artículo presenta el Modelo de Estado Específico (SSM), un marco innovador que unifica la detección y anticipación de acciones mediante la compresión de estados críticos, el aprendizaje de patrones de acción y la interacción cruzada temporal para modelar la intención del agente, logrando un rendimiento superior en diversos conjuntos de datos.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Este artículo presenta NEO, una nueva familia de Modelos de Visión-Lenguaje (VLM) nativos construidos desde cero que abordan las limitaciones de los modelos modulares mediante primitivas unificadas, logrando un rendimiento competitivo y democratizando el desarrollo de VLMs a gran escala.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Este artículo presenta un marco de evaluación que demuestra cómo la complejidad de los prompts en modelos de texto-a-imagen reduce la diversidad y consistencia de las imágenes generadas, pero disminuye la brecha de distribución con datos reales, siendo la expansión de prompts la intervención que logra el mejor equilibrio entre diversidad, estética y fidelidad al dominio real.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

El artículo presenta MergeMix, un paradigma unificado que combina la fine-tuning supervisada y el aprendizaje por refuerzo mediante una augmentación de mezcla de tokens y una pérdida de margen de preferencia suave, logrando una alineación más eficiente, estable y generalizable en modelos de lenguaje multimodal grandes.

Xin Jin, Siyuan Li, Siyong Jian + 2 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

El artículo presenta SYNAPSE-Net, un marco unificado y adaptativo basado en codificadores convolucionales multi-stream y atención cruzada que logra una segmentación robusta y generalizable de lesiones cerebrales heterogéneas en múltiples modalidades de MRI, superando a modelos específicos de patología en diversos conjuntos de datos públicos.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

El artículo presenta BEAT, un marco pionero que inyecta puertas traseras visuales en agentes encarnados basados en modelos de visión-lingüística mediante el aprendizaje contrastivo de desencadenantes, logrando una activación precisa de políticas maliciosas en entornos reales sin comprometer el rendimiento en tareas benignas.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential

Este artículo presenta una red neuronal convolucional 3D ligera que utiliza datos de cámaras de eventos para el reconocimiento de acciones humanas, logrando una alta precisión y eficiencia en dispositivos de borde mientras preserva la privacidad al evitar la captura de información personal identificable.

Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Este artículo presenta el \textit{Rank-enhancing Token Fuser}, un marco de fusión teóricamente fundamentado que utiliza la rango efectivo para contrarrestar simultáneamente el colapso de características y el colapso de modalidades en la anticipación de acciones humanas, logrando un rendimiento superior al estado del arte mediante la integración de datos de profundidad y RGB.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

← Anterior Siguiente →