cs.CV artículos | Gist.Science

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Este trabajo propone un nuevo método de ataque adversarial para redes hiperbólicas que, al aplicar perturbaciones exclusivamente en la dirección angular del espacio tangente, logra tasas de engaño superiores y revela vulnerabilidades específicas de las representaciones jerárquicas en geometrías no euclidianas.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

El artículo presenta Video2Layout, un marco que reconstruye mapas cognitivos espaciales basados en métricas continuas a partir de videos para superar las limitaciones de los mapas de cuadrícula y mejorar el razonamiento espacial en modelos de lenguaje multimodal.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Este artículo presenta MOMNet, un marco de trabajo novedoso libre de alineación que utiliza un mecanismo de coincidencia de múltiples órdenes y una agregación adaptativa para lograr una super-resolución de profundidad robusta y de alta calidad en escenarios del mundo real donde las imágenes RGB y de profundidad no están estrictamente alineadas.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

El artículo presenta DualMindVLM, un modelo de lenguaje visual que implementa un mecanismo de pensamiento dual (rápido y lento) adaptando el entrenamiento GRPO para asignar dinámicamente la longitud de la respuesta según la complejidad de la tarea, logrando así un rendimiento de razonamiento superior con una mayor eficiencia en el uso de tokens.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Este artículo presenta el Operador Neuronal Estructurado Radiativo (RSNO), un método de aprendizaje profundo que reconstruye imágenes hiperespectrales continuas a partir de observaciones multiespectrales mediante un mapeo continuo basado en principios físicos y proyecciones de consistencia angular para garantizar la coherencia espectral y eliminar distorsiones de color.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

El artículo presenta UnfoldLDM, un marco de red de despliegue profundo que integra un modelo de difusión latente para superar las limitaciones de dependencia del modelo de degradación y el sesgo de sobre-suavizado en la restauración ciega de imágenes, logrando resultados de vanguardia mediante módulos de estimación de degradación y corrección de texturas.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Este trabajo presenta un sistema de seguimiento GNSS estable y en tiempo real para robots marinos, que utiliza una flota de drones con detección visual, alineación de IDs cooperativa y un filtro de Kalman extendido ponderado por confianza para superar la pérdida de señal bajo el agua.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

El artículo presenta Yo'City, un marco agéntico innovador que utiliza modelos grandes y una estrategia de planificación jerárquica para generar ciudades 3D realistas, personalizadas y de escala infinita, superando a los métodos existentes mediante un ciclo de síntesis iterativo y un mecanismo de expansión guiado por relaciones espaciales y semánticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

Este artículo propone un método de regularización direccional en el espacio latente que mitiga el aprendizaje de atajos y mejora la generalización fuera de distribución al identificar ejes correlacionados con etiquetas y reducir la sensibilidad del clasificador hacia ellos mediante la inyección de ruido anisotrópico, sin requerir etiquetas de atajos ni ejemplos conflictivos.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Este estudio presenta ForamDeepSlice, un marco de aprendizaje profundo basado en un ensemble de redes neuronales convolucionales que logra una precisión del 95,64% en la clasificación automática de especies de foraminíferos a partir de rebanadas 2D de micro-TC, ofreciendo además una herramienta interactiva para su despliegue práctico en geociencias.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

El artículo presenta S2AM3D, un método innovador que combina priores de segmentación 2D con supervisión 3D consistente y un nuevo dataset masivo para lograr una segmentación de partes en nubes de puntos 3D que es robusta, generalizable y capaz de ajustar su granularidad en tiempo real.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

El artículo presenta HiconAgent, un agente de interfaz gráfica que utiliza la Optimización de Políticas Consciente del Contexto Histórico (HCPO) para mejorar la eficiencia y precisión en tareas de navegación secuencial mediante el muestreo dinámico de contextos y una compresión de historial guiada por anclajes, logrando un rendimiento superior al de modelos más grandes con una reducción significativa en costos computacionales.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

El paper presenta MAViD, un marco multimodal innovador que utiliza una arquitectura Conductor-Creador con modelos autoregresivos y de difusión para superar las limitaciones de los sistemas existentes y generar diálogos interactivos de larga duración, coherentes y sincronizados en audio y video.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artículo identifica el fenómeno de "horizonte de información" en los Modelos de Lenguaje Grandes Visuales, donde los tokens visuales pierden su relevancia en capas profundas, demostrando que la poda aleatoria en estas etapas es tan efectiva como los métodos existentes y permite lograr un equilibrio óptimo entre eficiencia y rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabajo aborda los desafíos de la extracción de redes viales en entornos no urbanos mediante el lanzamiento del conjunto de datos global WildRoad y la propuesta de MaGRoad, un marco de razonamiento centrado en el camino que supera las limitaciones de los métodos existentes al lograr un rendimiento superior y una inferencia más rápida.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Este trabajo propone un marco de aumento de datos generativo de dos pasos que combina deformación de máscaras basada en reglas y traducción de imágenes mediante GANs para generar muestras de rostros con mascarilla, logrando mejoras consistentes con una fracción mínima de los datos de entrenamiento utilizados por métodos anteriores, a pesar de haber sido desarrollado bajo severas restricciones de recursos y tiempo.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

El artículo presenta SALVE, un marco unificado que combina autoencoders dispersos y mapeo de saliencia para descubrir, validar y controlar de manera interpretable y permanente el comportamiento de redes neuronales mediante la edición de vectores latentes.

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

El artículo presenta ReMeDI-SAM3, una extensión sin entrenamiento de SAM3 que mejora la segmentación de instrumentos quirúrgicos mediante filtrado de memoria, interpolación y reidentificación para superar los desafíos de oclusión y movimiento, logrando mejoras significativas en métricas de precisión en comparación con enfoques anteriores.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudio demuestra que, aunque la percepción subjetiva de la vegetación urbana no siempre coincide con las mediciones objetivas, las diferencias se explican principalmente por el lugar de residencia de las personas y no por su demografía o personalidad, lo que sugiere que factores culturales y experienciales moldean significativamente cómo se observa el verde en las ciudades.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

El artículo presenta "Re-Depth Anything", un marco de auto-supervisión en tiempo de prueba que mejora la estimación de profundidad monoculosa al fusionar modelos fundacionales con priores de modelos de difusión 2D a gran escala mediante un refinamiento basado en re-iluminación y muestreo de distorsión de puntuación (SDS), logrando resultados de vanguardia sin necesidad de etiquetas.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

← Anterior Siguiente →