cs.CV artículos | Gist.Science

Kuramoto Orientation Diffusion Models

Los autores proponen un modelo generativo basado en puntuación que utiliza dinámicas estocásticas Kuramoto en dominios periódicos para modelar eficazmente imágenes ricas en orientación, como huellas dactilares y texturas, mediante un proceso de difusión que sincroniza fases en el paso forward y las desincroniza en el paso reverse para preservar patrones angulares coherentes.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artículo presenta el Sistema de Cámara de Imágenes de Desove y Larvas de Coral (CSLICS), una solución automatizada de bajo costo que utiliza visión por computadora para contar desoves de coral con precisión, reduciendo drásticamente el trabajo manual y facilitando la restauración de arrecifes a gran escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine2026-03-11💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Este trabajo propone un método no supervisado para recuperar los mecanismos de codificación y decodificación de conceptos en redes neuronales profundas mediante la identificación de pares de direcciones latentes, lo que permite desvelar conceptos interpretables, explicar predicciones y corregir errores sin depender de la reconstrucción de características.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios Zarpalas2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

El artículo presenta v-HUB, un nuevo benchmark de comprensión del humor en videos que utiliza clips no verbales y anotaciones ricas para evaluar modelos de lenguaje multimodal, demostrando que la integración de pistas auditivas mejora significativamente la capacidad de los modelos para entender el humor visual.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

El artículo presenta LLaVAShield, un sistema de seguridad diseñado para auditar diálogos multimodales de múltiples turnos en modelos de visión-idioma, respaldado por el nuevo conjunto de datos MMDS y el marco de red teaming MMRT, que supera a las herramientas existentes al abordar riesgos contextuales y de intención oculta.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Este estudio presenta un pipeline de aprendizaje profundo escalable que, mediante un enfoque de U-Net de doble paso aplicado a mapas históricos, genera el primer conjunto de datos nacional de huellas urbanas abierto para Francia entre 1925 y 1950, superando las limitaciones de ruido y artefactos de los mapas antiguos.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

El artículo presenta NavSpace, un nuevo benchmark diseñado para evaluar sistemáticamente la inteligencia espacial de los agentes de navegación, y propone SNav, un modelo que supera a los existentes tanto en este benchmark como en pruebas con robots reales.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artículo presenta DuNe, un marco de aprendizaje dual que aborda el desafío de la generalización de dominio en la segmentación semántica 3D de LiDAR bajo etiquetas ruidosas, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos mediante la consistencia de características y el filtrado basado en confianza.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

El artículo presenta RECODE, un marco agéntico que mejora el razonamiento visual en modelos multimodales al transformar la percepción de imágenes estructuradas en código ejecutable verificable mediante un proceso de generación, selección y refinamiento iterativo, logrando así un rendimiento superior en benchmarks como CharXiv y ChartQA.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Este trabajo presenta un marco de compresión de video neuronal en tiempo real que unifica la codificación intra e inter en un único modelo adaptativo, superando las limitaciones de propagación de errores y manejo de contenido nuevo de los métodos anteriores para lograr una reducción del 12,1% en la tasa BD-rate con rendimiento en tiempo real.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

El artículo presenta FALCON, un nuevo paradigma que mejora los modelos de visión-idioma-acción inyectando tokens espaciales 3D ricos derivados de modelos fundacionales en la cabeza de acción, logrando un rendimiento superior y una mayor robustez en tareas del mundo real sin comprometer el razonamiento lingüístico.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Este artículo demuestra que la selección estratégica de un subconjunto específico de hitos corporales, combinada con técnicas de imputación, permite reconocer signos aislados de la LIBRAS con una precisión comparable o superior a los métodos actuales mientras reduce el tiempo de procesamiento en más de cinco veces.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

El artículo presenta SynHLMA, un marco innovador que genera secuencias de manipulación de manos para objetos articulados a partir de instrucciones en lenguaje natural, utilizando una representación discreta de la interacción mano-objeto y un modelo de lenguaje alineado para lograr tareas de generación, predicción e interpolación con aplicaciones en robótica.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

El artículo presenta FRIDA, un marco ligero y eficiente que utiliza características de modelos de difusión preentrenados para detectar imágenes generadas por IA y atribuir su fuente con alto rendimiento en escenarios de generalización cruzada.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

El artículo presenta SPAN, un nuevo enfoque de alineación de proyección espacial que mejora la detección 3D monocular al imponer restricciones espaciales globales y de proyección 2D-3D para corregir la inconsistencia geométrica inherente a los paradigmas de predicción desacoplada, logrando así un rendimiento superior mediante una estrategia de aprendizaje jerárquico.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

El artículo presenta MediRound, un modelo y un nuevo conjunto de datos (MR-MedSeg) diseñados para abordar la tarea de segmentación médica mediante razonamiento de múltiples rondas, introduciendo un mecanismo de juicio y corrección para mitigar la propagación de errores en diálogos educativos progresivos.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Este artículo presenta el módulo de Caché de Diversidad Adaptativa (ADC), una solución plug-and-play y sin entrenamiento que mitiga el sesgo de cola larga en la detección de interacciones humano-objeto mediante la acumulación dinámica de representaciones de características diversas durante la inferencia, mejorando significativamente la detección de categorías raras sin requerir ajuste adicional.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

El artículo presenta V-Attack, un método novedoso que logra ataques adversarios controlables y precisos en Modelos Grandes de Visión y Lenguaje (LVLM) al manipular las características de valor (V) desentrelazadas en lugar de las representaciones de parches enredadas, logrando una tasa de éxito de ataque un 36% superior a los métodos existentes.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Este trabajo presenta UPA-RFAS, un marco unificado que genera parches adversarios universales y transferibles capaces de engañar a modelos de Visión-Lenguaje-Acción (VLA) en diversos escenarios, arquitecturas desconocidas y condiciones físicas, exponiendo así una vulnerabilidad crítica en la seguridad de los robots.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

← Anterior Siguiente →