cs.CV artículos | Gist.Science

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

El trabajo presenta MARRS, un marco novedoso que genera reacciones humanas coordinadas y detalladas mediante representaciones continuas, utilizando un VAE dividido por unidades corporales, fusión condicionada por acciones, modulación adaptativa entre unidades y un modelo de difusión con predictores MLP independientes para superar las limitaciones de los enfoques autoregresivos basados en cuantización vectorial.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Este artículo presenta la primera revisión sistemática sobre la integración de modelos fundacionales en la robótica de servicio móvil, analizando cómo estas tecnologías abordan desafíos técnicos clave, habilitan aplicaciones en entornos reales y plantean consideraciones éticas y futuras para el desarrollo de robots autónomos seguros y adaptables.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Este trabajo presenta EasyText, un marco basado en transformadores de difusión que permite la generación precisa y controlable de texto multilingüe mediante la incorporación de codificaciones de posición de caracteres y el uso de un extenso conjunto de datos sintéticos.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

El artículo presenta SpikeSMOKE, una arquitectura de redes neuronales de espigas para la detección 3D de objetos monocular que, mediante un nuevo mecanismo de codificación de compuertas de escala cruzada y bloques residuales ligeros, logra una alta precisión en conjuntos de datos como KITTI y NuScenes mientras reduce significativamente el consumo energético y la complejidad computacional en comparación con métodos tradicionales.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

El artículo presenta FieldLVLM, un marco innovador que mejora la comprensión de los Grandes Modelos Visuales-Lingüísticos sobre datos de campos científicos mediante una estrategia de generación de lenguaje específica del dominio y un ajuste de modelos multimodales con compresión de datos, logrando un rendimiento superior en tareas de investigación científica.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

El artículo presenta MGCR-Net, una red de reconstrucción visión-lingüística condicionada por grafos multimodales que aprovecha modelos de lenguaje grandes y mecanismos de atención gráfica para mejorar la detección de cambios en imágenes de teledetección mediante una alineación de características fina y una interacción semántica profunda.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Este artículo presenta SFDA-PFT, un método eficiente de adaptación de dominio sin fuente que utiliza una traducción de características en el espacio latente para personalizar modelos de reconocimiento de expresiones faciales utilizando únicamente datos de expresiones neutras del objetivo, evitando así la generación de imágenes y preservando la privacidad.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

El artículo presenta EgoCross, un nuevo benchmark diseñado para evaluar la generalización de modelos de lenguaje grandes multimodales en preguntas y respuestas sobre videos egocéntricos a través de dominios diversos y desafiantes más allá de las actividades cotidianas, revelando las limitaciones actuales de estos modelos y explorando estrategias para mejorar su adaptabilidad.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

El artículo presenta YOPO, un marco unificado de un solo paso basado en transformadores que logra un estado del arte en la estimación de pose 9D de múltiples objetos a nivel de categoría a partir de una sola imagen RGB, eliminando la necesidad de modelos CAD, profundidad o etapas cascada.

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

El artículo presenta CoRe-GS, un marco de dispersión gaussiana de lo grueso a lo fino que optimiza selectivamente solo los objetos de interés en una escena, logrando una reconstrucción 3D más rápida y de mayor calidad al reducir los costos computacionales innecesarios para aplicaciones robóticas.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

El artículo presenta VocSegMRI, un marco de aprendizaje multimodal que integra señales visuales, acústicas y fonológicas mediante fusión por atención cruzada y aprendizaje contrastivo para lograr una segmentación precisa y robusta del tracto vocal en imágenes de resonancia magnética en tiempo real, superando a los métodos unimodales existentes.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

Kuramoto Orientation Diffusion Models

Los autores proponen un modelo generativo basado en puntuación que utiliza dinámicas estocásticas Kuramoto en dominios periódicos para modelar eficazmente imágenes ricas en orientación, como huellas dactilares y texturas, mediante un proceso de difusión que sincroniza fases en el paso forward y las desincroniza en el paso reverse para preservar patrones angulares coherentes.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artículo presenta el Sistema de Cámara de Imágenes de Desove y Larvas de Coral (CSLICS), una solución automatizada de bajo costo que utiliza visión por computadora para contar desoves de coral con precisión, reduciendo drásticamente el trabajo manual y facilitando la restauración de arrecifes a gran escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine2026-03-11💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Este trabajo propone un método no supervisado para recuperar los mecanismos de codificación y decodificación de conceptos en redes neuronales profundas mediante la identificación de pares de direcciones latentes, lo que permite desvelar conceptos interpretables, explicar predicciones y corregir errores sin depender de la reconstrucción de características.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios Zarpalas2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

El artículo presenta v-HUB, un nuevo benchmark de comprensión del humor en videos que utiliza clips no verbales y anotaciones ricas para evaluar modelos de lenguaje multimodal, demostrando que la integración de pistas auditivas mejora significativamente la capacidad de los modelos para entender el humor visual.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

El artículo presenta LLaVAShield, un sistema de seguridad diseñado para auditar diálogos multimodales de múltiples turnos en modelos de visión-idioma, respaldado por el nuevo conjunto de datos MMDS y el marco de red teaming MMRT, que supera a las herramientas existentes al abordar riesgos contextuales y de intención oculta.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Este estudio presenta un pipeline de aprendizaje profundo escalable que, mediante un enfoque de U-Net de doble paso aplicado a mapas históricos, genera el primer conjunto de datos nacional de huellas urbanas abierto para Francia entre 1925 y 1950, superando las limitaciones de ruido y artefactos de los mapas antiguos.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

El artículo presenta NavSpace, un nuevo benchmark diseñado para evaluar sistemáticamente la inteligencia espacial de los agentes de navegación, y propone SNav, un modelo que supera a los existentes tanto en este benchmark como en pruebas con robots reales.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artículo presenta DuNe, un marco de aprendizaje dual que aborda el desafío de la generalización de dominio en la segmentación semántica 3D de LiDAR bajo etiquetas ruidosas, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos mediante la consistencia de características y el filtrado basado en confianza.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

← Anterior Siguiente →