cs.CV artículos | Gist.Science

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

El paper presenta SCOPE, un marco plug-and-play que mejora la segmentación 3D incremental de pocos ejemplos enriqueciendo los prototipos de nuevas clases con información contextual de fondo no etiquetada, logrando así un rendimiento superior y una menor catástrofe del olvido en conjuntos de datos como ScanNet y S3DIS.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

El artículo presenta BEVLM, un marco que conecta representaciones de vista aérea (BEV) con modelos de lenguaje grandes (LLM) para superar las limitaciones de consistencia espacial y riqueza semántica, mejorando significativamente tanto el razonamiento en escenarios de conducción complejos como el rendimiento en sistemas de conducción autónoma de extremo a extremo.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

El artículo presenta Omni-Diffusion, el primer modelo de lenguaje multimodal de cualquier tipo a cualquier tipo que unifica la comprensión y la generación de texto, voz e imágenes mediante un modelo de difusión discreta basado en máscaras, superando o igualando el rendimiento de los sistemas multimodales existentes.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Este artículo demuestra que el aparente rendimiento inferior de los Modelos de Lenguaje Grandes Multimodales (MLLM) en tareas de clasificación se debe principalmente a protocolos de evaluación defectuosos y etiquetas de referencia ruidosas, las cuales, al corregirse, revelan que estos modelos pueden igualar a los supervisados y ayudar eficazmente en la curación de grandes conjuntos de datos.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Este artículo presenta un modelo generativo basado en redes neuronales predictivas que crea ilusiones de movimiento efectivas en humanos, respaldando la hipótesis de que estas ilusiones surgen de las predicciones cerebrales y destacando el valor de estudiar las "fallos motivados" en la inteligencia artificial.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

El artículo presenta FEP-Nav, un marco inspirado biológicamente que implementa la adaptación perceptiva en tiempo real para la navegación visual robusta minimizando la energía libre variacional mediante un mecanismo dual de decodificación descendente y normalización adaptativa, superando así a los métodos existentes en entornos con corrupciones sensoriales.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

El artículo presenta InstructHumans, un marco innovador que permite la edición de texturas 3D de humanos animables mediante instrucciones, utilizando una versión modificada del muestreo de distilación de puntuación (SDS-E) para lograr cambios fieles al texto sin comprometer la consistencia con el avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

El artículo presenta EasyAnimate, un marco de generación de video de alto rendimiento que utiliza atención híbrida en ventanas y retropropagación de recompensas para lograr una velocidad de inferencia superior y una calidad de video de vanguardia, superando a los modelos existentes en eficiencia y resultados evaluados por humanos.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Este artículo presenta un método innovador que reconstruye directamente avatares humanos 3D nítidos a partir de videos borrosos, utilizando un modelo físico de desenfoque basado en el movimiento y optimizando conjuntamente la representación del avatar y sus parámetros de movimiento.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

El artículo presenta TABE, una nueva metodología de segmentación de objetos en video que permite la inferencia cero-shot y la completación amodal de objetos ocultos mediante el uso de una sola máscara de consulta y la adaptación en tiempo de prueba de un modelo de difusión de video preentrenado.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Este trabajo presenta un marco de poda estructural agnóstico al modelo que aprende una máscara diferenciable para reducir hasta un 20% de los parámetros en modelos de difusión de visión sin necesidad de reentrenamiento, utilizando un objetivo de poda de extremo a extremo y un checkpoint de gradiente por pasos de tiempo para optimizar el uso de memoria.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Este trabajo propone el marco de adaptación guiada por la planitud (FGA) para modelos de visión y lenguaje, el cual unifica coherentemente el entrenamiento y la adaptación en tiempo de prueba mediante el aprovechamiento de la planitud geométrica adquirida durante el entrenamiento para guiar la selección de muestras, logrando así un rendimiento superior con menor costo computacional en comparación con los métodos existentes.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Este artículo presenta un marco de manipulación consciente de la dinámica 3D que integra el modelado del mundo en 3D y el aprendizaje de políticas mediante tareas de autoaprendizaje, dotando a los agentes de una "previsión 3D" que mejora significativamente su rendimiento en tareas con movimiento en profundidad sin sacrificar la velocidad de inferencia.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

MedFuncta es un marco unificado que permite el entrenamiento eficiente de campos neuronales a gran escala en datos médicos mediante la codificación de señales en vectores latentes que modulan una red compartida, optimizando parámetros de activación y estrategias de meta-aprendizaje para reducir el consumo de recursos mientras se habilitan tareas posteriores y se libera el primer conjunto de datos masivo de este tipo, MedNF.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

El artículo presenta RapidPoseTriangulation, un algoritmo innovador que realiza la triangulación de poses corporales completas de múltiples personas desde varias vistas en milisegundos, destacando por su alta velocidad, capacidad de generalización y disponibilidad pública.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

El artículo presenta Noise2Ghost, un método de reconstrucción de imagen fantasma basado en aprendizaje profundo auto-supervisado que elimina la necesidad de datos de referencia limpios y ofrece una reducción de ruido superior, facilitando así aplicaciones de imagen en condiciones de baja luz como la fluorescencia de rayos X en muestras biológicas y baterías.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

El artículo presenta LMPOcc, un marco de aprendizaje colaborativo que integra priores de ocupación global en un mapa de memoria a largo plazo para mejorar la predicción local de ocupación 3D y permitir la construcción escalable de mapas globales mediante la fusión adaptativa de observaciones actuales y históricas.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

El artículo presenta PhysLLM, un marco de optimización colaborativa que integra modelos de lenguaje grandes con componentes específicos de fotopletismografía remota (rPPG) mediante estrategias de alineación semántica y reponderación de características para lograr mediciones fisiológicas no invasivas de alta precisión y robustez ante cambios de iluminación y movimiento.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

El artículo presenta ReactDance, un marco de difusión que utiliza una representación latente jerárquica con cuantización escalar finita (HFSQ) y muestreo de contexto local por bloques (BLC) para generar danzas reactivas de alta fidelidad y coherencia a largo plazo.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

El artículo presenta RESAR-BEV, un marco de fusión cámara-radar explicable y progresivo para la segmentación en vista cenital que supera a los métodos existentes mediante un aprendizaje autoregresivo residual, una representación robusta de BEV y una supervisión desacoplada, logrando un rendimiento de vanguardia (54.0% mIoU) y tiempo real (14.6 FPS) en el conjunto de datos nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

← Anterior Siguiente →