cs.CV artículos | Gist.Science

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

El artículo presenta MorphAny3D, un marco sin entrenamiento que utiliza representaciones de latente estructurado y mecanismos de atención especializados para generar secuencias de morfado 3D de alta calidad, semánticamente consistentes y temporalmente suaves, incluso entre diferentes categorías.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

El artículo presenta EmboTeam, un marco de planificación para equipos de robots heterogéneos que integra el razonamiento de modelos de lenguaje grande con árboles de comportamiento reactivos mediante PDDL, logrando mejoras significativas en la ejecución de tareas complejas de largo alcance en entornos domésticos simulados.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabajo evalúa la capacidad de los modelos fundacionales para identificar momentos clave en videos de fútbol, revelando mediante un nuevo dataset que su rendimiento es cercano al azar debido a su dependencia de una sola modalidad y la falta de sinergia entre fuentes de información, lo que subraya la necesidad de arquitecturas modulares y procedimientos de entrenamiento complementarios.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

Este trabajo presenta EGAgent, un marco agéntico basado en grafos de escenas de entidades que supera las limitaciones de los métodos actuales para lograr una comprensión contextual profunda y razonamiento composicional en streams de video egocéntrico continuo de larga duración, logrando un rendimiento superior en tareas complejas de comprensión de video longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Este artículo presenta MiTA Attention, un mecanismo eficiente que unifica métodos de atención existentes bajo una perspectiva de escalado de pesos rápidos y propone una estrategia de compresión y enrutamiento que reduce la complejidad mediante la agrupación de los pares clave-valor más activos para consultas clave.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

DDP-WM es un modelo de mundo eficiente que supera las limitaciones computacionales de los modelos densos mediante la predicción dinámica desenredada, logrando una aceleración de inferencia de 9 veces y una mejora en la tasa de éxito de planificación en tareas robóticas complejas.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

El artículo presenta "Rolling Sink", una solución sin entrenamiento que cierra la brecha entre el horizonte limitado de entrenamiento y la generación de video abierta mediante el análisis de la memoria caché en modelos de difusión autoregresivos, permitiendo la síntesis de videos ultra largos con alta fidelidad visual y consistencia temporal.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Este artículo propone un marco de aprendizaje activo guiado por explicabilidad que, al combinar la incertidumbre predictiva con la desalineación de la atención espacial respecto a las regiones de interés definidas por expertos, logra una mayor eficiencia en el uso de datos y una mejor interpretabilidad clínica en el análisis de imágenes médicas.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Este trabajo presenta Pailitao-VL, un sistema de búsqueda industrial multimodal en tiempo real que supera las limitaciones de precisión y eficiencia de las soluciones actuales mediante un nuevo paradigma de incrustación basado en reconocimiento de ID absoluto y un reordenador generativo de lista comparativa, logrando un rendimiento superior y un impacto comercial significativo en la plataforma de comercio electrónico de Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

El artículo presenta DeltaGateNet, un marco innovador que mejora el reconocimiento de fatiga en la conducción mediante EEG al modelar explícitamente la dinámica temporal bidireccional y las asimetrías neuronales, logrando un rendimiento superior y generalizable en diversos conjuntos de datos públicos.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Este trabajo presenta EA-Swin, un transformador Swin agnóstico a las incrustaciones que logra una detección superior y generalizable de videos generados por IA mediante el modelado directo de dependencias espacio-temporales, validado en un nuevo conjunto de datos de 130K videos que supera significativamente a los métodos actuales.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard es un marco de transformadores topológicos que permite la búsqueda de identidad privada y resiliente a sesgos en cámaras urbanas distribuidas, combinando aprendizaje métrico adaptativo, atención espacial condicional y privacidad diferencial para lograr una coincidencia precisa sin compartir imágenes crudas.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

El artículo presenta CARE, un modelo fundacional de patología que utiliza un enfoque de dos etapas con alineación cruzada de modalidades (ARN y proteínas) para dividir automáticamente las imágenes de diapositivas completas en regiones adaptativas morfológicamente relevantes, logrando un rendimiento superior en múltiples tareas con solo una décima parte de los datos de entrenamiento habituales.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Este artículo presenta MasqLoRA, un marco de ataque sistemático que explota la flexibilidad de los adaptadores LoRA en modelos de difusión texto-imagen para inyectar puertas traseras estelares que activan comportamientos maliciosos mediante palabras clave específicas sin alterar el comportamiento normal del modelo.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

El artículo presenta RobustVisRAG, un marco de generación aumentada por recuperación basada en visión guiado por causalidad que separa eficazmente los factores semánticos de las degradaciones visuales mediante un enfoque de doble vía, logrando así una mayor robustez en la recuperación y generación de respuestas bajo condiciones visuales adversas sin sacrificar la precisión en entradas limpias.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

El artículo presenta LFG, un marco de preentrenamiento sin etiquetas que utiliza videos de conducción en internet sin poses ni anotaciones para aprender representaciones unificadas de percepción autónoma mediante modelos maestros multimodales, logrando un rendimiento superior en tareas de planificación y predicción de movimiento.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

El artículo presenta Diffusion Probe, un marco eficiente y agnóstico al modelo que predice la calidad final de las imágenes generadas por difusión texto-a-imagen analizando las distribuciones de atención cruzada en etapas tempranas, permitiendo así optimizar recursos y mejorar la calidad de salida mediante decisiones anticipadas.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

El artículo presenta DiffusionHarmonizer, un marco de mejora generativa en línea que transforma reconstrucciones neuronales imperfectas en simulaciones fotorealistas y temporalmente consistentes mediante un potenciador de difusión de un solo paso entrenado con un pipeline de datos personalizado.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D es un marco unificado de alimentación directa que reconstruye una representación 4D densa y explícita a partir de solo dos imágenes sin pose, estimando simultáneamente geometría 3D, movimiento y pose de la cámara mediante una representación compartida de Gaussianas 3D dinámicas que supera a los métodos anteriores en precisión y permite una interpolación 4D de alta fidelidad.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

El artículo presenta Dr. Seg, un marco de entrenamiento basado en GRPO diseñado específicamente para modelos de lenguaje visual grandes que aborda las limitaciones de los paradigmas de razonamiento en tareas de percepción mediante mecanismos de confirmación y recompensas estables, mejorando así el rendimiento en escenarios visuales complejos sin requerir modificaciones arquitectónicas.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

← Anterior Siguiente →