cs.CV artículos | Gist.Science

OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

OpenVO es un marco innovador para la odometría visual en entornos abiertos que, al integrar dinámicas temporales y priores geométricos 3D, estima con precisión el movimiento ego en condiciones de cámaras no calibradas y frecuencias de observación variables, superando significativamente a los métodos actuales en benchmarks de conducción autónoma.

Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin2026-02-24💻 cs

Direction-aware 3D Large Multimodal Models

Este trabajo presenta un nuevo paradigma para modelos 3D multimodales grandes conscientes de la dirección que introduce PoseRecover, un pipeline automático para recuperar poses egocéntricas, y PoseAlign, que alinea los datos de nubes de puntos con dichas poses, logrando mejoras significativas en tareas de razonamiento espacial sin necesidad de arquitecturas complejas.

Quan Liu, Weihao Xuan, Junjue Wang + 3 more2026-02-24💻 cs

L3DR: 3D-aware LiDAR Diffusion and Rectification

L3DR es un marco de difusión y rectificación de LiDAR consciente de la 3D que corrige artefactos de vista de rango y restaura la geometría local con alta fidelidad mediante una red de regresión residual y una pérdida de Welsch, logrando un rendimiento superior en múltiples conjuntos de datos.

Quan Liu, Xiaoqin Zhang, Ling Shao + 1 more2026-02-24💻 cs

Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Este trabajo propone un marco de reconocimiento de caracteres Kuzushiji guiado por restauración (RG-KCR) que aborda el desafío de la interferencia de sellos mediante un proceso de tres etapas, logrando mejoras significativas en la precisión de detección y clasificación en comparación con los métodos existentes.

Rui-Yang Ju, Kohei Yamashita, Hirotaka Kameko + 1 more2026-02-24💻 cs

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

El artículo presenta Ani3DHuman, un marco que combina animación basada en cinemática con priores de difusión de video y un nuevo método de muestreo estocástico auto-guiado para generar animaciones humanas 3D fotorrealistas que superan las limitaciones de calidad y pérdida de identidad de los métodos existentes.

Qi Sun, Can Wang, Jiaxiang Shang + 2 more2026-02-24🤖 cs.LG

CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

El artículo presenta CREM, un marco unificado que mejora el rendimiento de recuperación multimodal mediante un diseño de prompts basado en compresión y una estrategia de entrenamiento que integra objetivos generativos y contrastivos, logrando así un estado del arte en tareas de recuperación sin sacrificar la capacidad de generación del modelo.

Lihao Liu, Yan Wang, Biao Yang + 10 more2026-02-24💻 cs

Mapping Networks

Este artículo presenta las "Mapping Networks", un enfoque que reduce drásticamente la cantidad de parámetros entrenables y el sobreajuste al mapear el espacio de pesos de alta dimensión a un vector latente compacto, logrando un rendimiento comparable o superior en diversas tareas de visión y secuencia.

Lord Sen, Shyamapada Mukherjee2026-02-24💻 cs

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

El artículo presenta CaReFlow, un método que utiliza un flujo rectificado cíclico adaptativo para reducir la brecha modal mediante una estrategia de mapeo uno-a-muchos y alineación relajada, logrando una fusión multimodal más robusta y precisa en tareas de computación afectiva.

Sijie Mai, Shiqin Han2026-02-24🤖 cs.LG

Artefact-Aware Fungal Detection in Dermatophytosis: A Real-Time Transformer-Based Approach for KOH Microscopy

Este estudio presenta un enfoque basado en transformadores (RT-DETR) para la detección en tiempo real de dermatofitosis en microscopía KOH, que logra una precisión superior al distinguir estructuras fúngicas de artefactos y alcanzar una sensibilidad del 100% en el diagnóstico.

Rana Gursoy, Abdurrahim Yilmaz, Baris Kizilyaprak + 5 more2026-02-24🤖 cs.AI

Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation

El artículo presenta Flash-VAED, un marco de aceleración universal para decodificadores VAE que combina poda de canales, optimización de operadores y destilación dinámica para lograr una velocidad de generación de video hasta 6 veces mayor con una pérdida de calidad mínima.

Lunjie Zhu, Yushi Huang, Xingtong Ge + 5 more2026-02-24💻 cs

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

El artículo presenta JavisDiT++, un marco unificado que mejora la generación conjunta de audio y video mediante un diseño MoE específico por modalidad, una estrategia de sincronización temporal (TA-RoPE) y optimización de preferencias directas (AV-DPO), logrando un rendimiento superior al estado del arte con un conjunto de entrenamiento reducido.

Kai Liu, Yanhao Zheng, Kai Wang + 7 more2026-02-24💻 cs

BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment

El artículo presenta BriMA, un enfoque innovador para la evaluación continua de la calidad de las acciones multimodal que aborda el desequilibrio de modalidades mediante un módulo de imputación guiado por memoria y un mecanismo de repetición consciente de la modalidad, logrando mejoras significativas en el rendimiento bajo condiciones de datos incompletos.

Kanglei Zhou, Chang Li, Qingyi Pan + 1 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

El artículo presenta EMAD, un marco de visión-linguaje que genera informes diagnósticos de la enfermedad de Alzheimer explicables y clínicamente coherentes al vincular cada afirmación con evidencia multimodal específica y estructuras anatómicas en resonancias magnéticas 3D, utilizando técnicas de destilación y ajuste fino por refuerzo para garantizar la transparencia y la precisión.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery

Este artículo presenta un marco de alineación de preferencias grupales para modelos de recuperación de mallas humanas basados en difusión, que utiliza un agente crítico con memoria dual y autorreflexión para generar puntuaciones de calidad que guían al modelo hacia predicciones tridimensionales más físicamente plausibles y consistentes con la imagen.

Wenhao Shen, Hao Wang, Wanqi Yin + 5 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

El artículo presenta PositionOCR, una arquitectura híbrida eficiente en parámetros que integra las capacidades de localización posicional de modelos especializados en detección de texto con el razonamiento contextual de los modelos de lenguaje grandes para superar las limitaciones de los modelos multimodales actuales en tareas de reconocimiento y anclaje de texto.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

Prompt Tuning for CLIP on the Pretrained Manifold

El artículo presenta ManiPT, un marco que mejora el ajuste de prompts en modelos CLIP bajo supervisión limitada mediante restricciones de consistencia cosenual y un sesgo estructural que mantienen las representaciones en la variedad preentrenada, mitigando así el sobreajuste y mejorando la generalización en diversas tareas.

Xi Yang, Yuanrong Xu, Weigang Zhang + 3 more2026-02-24💻 cs

UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models

El artículo presenta UniE2F, un marco unificado que aprovecha los modelos de difusión de video preentrenados para reconstruir cuadros de video de alta fidelidad a partir de datos de cámaras de eventos, superando la pérdida de información espacial mediante una guía de residuos intercuadro basada en eventos y habilitando tareas de interpolación y predicción en ceros disparos.

Gang Xu, Zhiyu Zhu, Junhui Hou2026-02-24💻 cs

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

El artículo presenta SegMoTE, un marco eficiente y adaptable basado en SAM que utiliza una mezcla de expertos a nivel de token y un mecanismo de tokenización progresiva para lograr un rendimiento superior en la segmentación de imágenes médicas con una fracción mínima de datos de anotación, resolviendo así los desafíos de generalización y transferencia negativa en escenarios clínicos diversos.

Yujie Lu, Jingwen Li, Sibo Ju + 5 more2026-02-24💻 cs

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Este artículo presenta KRSVQG, un modelo que integra conocimiento externo y descripción de imágenes para generar preguntas visualmente fundamentadas y diversas sobre imágenes de teledetección, superando las limitaciones de los métodos actuales basados en plantillas.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Este trabajo presenta un método de manipulación facial en el espacio latente semántico que, mediante proyección ortogonal y condicionamiento dependiente, genera datos sintéticos de alta calidad para equilibrar y diversificar conjuntos de datos de análisis de unidades de acción, mejorando significativamente la precisión y la desvinculación de los detectores de expresiones sin introducir artefactos ni perder la identidad.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

← Anterior Siguiente →