cs.CV artículos | Gist.Science

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

El artículo presenta SGMA, un marco de segmentación semántica para teledetección que aborda la incompletitud de datos multimodales mediante módulos de fusión guiada semánticamente y muestreo consciente de la modalidad para equilibrar el aprendizaje, reducir la variación intraclase y resolver inconsistencias entre modalidades.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

Este estudio demuestra que un marco de aprendizaje profundo basado en grafos, que utiliza parcellaciones funcionales (MSDL) en lugar de las anatómicas y un ensemble de redes de atención gráfica, logra una precisión del 95% en la clasificación del autismo mediante rs-fMRI, validando además que las decisiones del modelo se alinean con la neuropatología del trastorno al identificar hubs clave de la red neuronal por defecto.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

El artículo presenta NeighborMAE, un modelo de autoencoder enmascarado que mejora el aprendizaje auto-supervisado de imágenes de observación terrestre al explotar las dependencias espaciales entre imágenes vecinas mediante una reconstrucción conjunta y una estrategia heurística dinámica para ajustar la proporción de enmascaramiento y el peso de la pérdida.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

El paper presenta EIMC, un paradigma innovador de percepción colaborativa multimodal que mejora la seguridad en la conducción autónoma mediante la inyección de voxels colaborativos ligeros y un protocolo de consenso basado en mapas de calor para solicitar solo los vectores de instancias más críticos, logrando así un alto rendimiento en detección (73.01% AP@0.5) con una reducción del 87.98% en el uso de ancho de banda.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

Este trabajo establece una fundamentación teórica sobre la entropía focal mediante el análisis de sus propiedades funcionales, demostrando cómo la pérdida focal amplifica las probabilidades intermedias y suprime las extremas, lo que explica su comportamiento y compensaciones en tareas de aprendizaje con desequilibrio de clases.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

Este artículo presenta ForestPersons, un nuevo conjunto de datos a gran escala diseñado para la detección de personas desaparecidas bajo el dosel forestal desde perspectivas a nivel del suelo y baja altitud, abordando las limitaciones de los enfoques aéreos tradicionales en misiones de búsqueda y rescate.

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

El artículo propone el clasificador discriminativo asistido por generación (GAD), un método que combina las ventajas de los enfoques generativos y discriminativos en modelos multimodales de gran lenguaje para lograr un rendimiento superior y una inferencia más rápida en la comprensión de acciones cerradas.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

SemGS es un marco de trabajo feed-forward que reconstruye campos semánticos 3D generalizables a partir de vistas escasas mediante una arquitectura de doble rama y un mecanismo de atención consciente de la cámara, logrando un estado del arte en la síntesis de nuevas vistas semánticas con inferencia rápida y alta generalización.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Este trabajo presenta un robot quirúrgico asistivo de doble brazo que utiliza modelos de visión y lenguaje para generar trayectorias de entrega de instrumentos de forma autónoma y sin colisiones en entornos dinámicos, logrando una tasa de éxito del 83,33% en validaciones experimentales.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

El artículo presenta GKD, un marco de destilación de conocimiento que mejora la generalización en la segmentación semántica al desacoplar el aprendizaje de representaciones de la adaptación a la tarea mediante una destilación selectiva basada en consultas, superando así a los métodos convencionales en escenarios de distribución cambiante.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Este trabajo presenta VC-STaR, un marco de auto-mejora que aprovecha pares de preguntas visuales contrastivas para mitigar las alucinaciones en los razonamientos de los modelos de lenguaje visuales, generando el conjunto de datos VisCoR-55K que supera a los métodos existentes y a los conjuntos de datos de vanguardia.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

El artículo presenta CAPT, un marco de ajuste de prompts consciente de la confusión que mitiga las desalineaciones en modelos visión-idioma mediante la construcción de un banco de confusión y la integración de mineros semánticos y de muestras para mejorar la discriminación y la generalización en categorías similares.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

El artículo presenta CAWM-Mamba, un marco unificado basado en Mamba que realiza por primera vez la fusión de imágenes infrarrojas y visibles junto con la restauración de condiciones climáticas adversas compuestas mediante módulos especializados para el preprocesamiento, la interacción multimodal y la descomposición en el espacio de wavelets, logrando un rendimiento superior en benchmarks y tareas de percepción downstream.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

El artículo presenta SOLAR, un marco de modelado de secuencias para sistemas de recomendación que utiliza una atención optimizada mediante descomposición SVD para reducir la complejidad computacional de $O(N^2 d)$ a $O(Ndr)$ sin perder precisión en matrices de bajo rango, permitiendo manejar secuencias de comportamiento masivas y logrando mejoras significativas en las visualizaciones de video en el escenario en línea de Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

El artículo presenta ATD, una nueva arquitectura basada en transformadores que utiliza un diccionario de tokens adaptativo y un mecanismo de atención cruzada para lograr un modelado de dependencias globales con complejidad lineal, logrando así un rendimiento superior en tareas de restauración de imágenes como la super-resolución y la eliminación de ruido.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

El artículo presenta NEMF, un marco innovador que desentraña la geometría, el campo ambiental y los materiales para resolver el problema inverso físico y reconstruir mapas de parámetros materiales de alta resolución, permitiendo así la creación de gemelos digitales funcionales y simulables.

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Este estudio demuestra que la combinación de las técnicas de aumento de datos "Random Affine" y "Color Jitter" optimiza el rendimiento del modelo ligero EfficientViT para la clasificación de caracteres manuscritos bengalíes, alcanzando una precisión superior al 97% en conjuntos de datos con recursos limitados.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

El artículo presenta "Synthetic-Child", una pipeline basada en IA generativa que crea datos sintéticos fotorealistas de posturas infantiles para entrenar modelos de estimación precisos y éticos, logrando un rendimiento superior al de los datos reales en dispositivos de borde sin necesidad de fotografías de niños.

Taowen Zeng2026-03-04💻 cs

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

Este artículo presenta VLMFusionOcc3D, un marco multimodal robusto que integra modelos de visión-idioma para mejorar la predicción de ocupación semántica 3D en conducción autónoma, abordando eficazmente la ambigüedad semántica y el rendimiento en condiciones climáticas adversas mediante mecanismos de atención instanciada y fusión adaptativa.

A. Enes Doruk, Hasan F. Ates2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

El artículo presenta DrPose, un algoritmo de ajuste fino con recompensa directa que mejora la reconstrucción 3D de humanos a partir de una sola imagen mediante el entrenamiento de modelos de difusión multi-vista con un nuevo conjunto de datos de 15K poses, logrando así generar poses más naturales y diversas sin necesidad de costosos activos 3D.

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs

← Anterior Siguiente →