cs.CV artículos | Gist.Science

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Este artículo presenta SFDA-PFT, un método eficiente de adaptación de dominio sin fuente que utiliza una traducción de características en el espacio latente para personalizar modelos de reconocimiento de expresiones faciales utilizando únicamente datos de expresiones neutras del objetivo, evitando así la generación de imágenes y preservando la privacidad.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

El artículo presenta EgoCross, un nuevo benchmark diseñado para evaluar la generalización de modelos de lenguaje grandes multimodales en preguntas y respuestas sobre videos egocéntricos a través de dominios diversos y desafiantes más allá de las actividades cotidianas, revelando las limitaciones actuales de estos modelos y explorando estrategias para mejorar su adaptabilidad.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

El artículo presenta YOPO, un marco unificado de un solo paso basado en transformadores que logra un estado del arte en la estimación de pose 9D de múltiples objetos a nivel de categoría a partir de una sola imagen RGB, eliminando la necesidad de modelos CAD, profundidad o etapas cascada.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

El artículo presenta CoRe-GS, un marco de dispersión gaussiana de lo grueso a lo fino que optimiza selectivamente solo los objetos de interés en una escena, logrando una reconstrucción 3D más rápida y de mayor calidad al reducir los costos computacionales innecesarios para aplicaciones robóticas.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

El artículo presenta VocSegMRI, un marco de aprendizaje multimodal que integra señales visuales, acústicas y fonológicas mediante fusión por atención cruzada y aprendizaje contrastivo para lograr una segmentación precisa y robusta del tracto vocal en imágenes de resonancia magnética en tiempo real, superando a los métodos unimodales existentes.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Kuramoto Orientation Diffusion Models

Los autores proponen un modelo generativo basado en puntuación que utiliza dinámicas estocásticas Kuramoto en dominios periódicos para modelar eficazmente imágenes ricas en orientación, como huellas dactilares y texturas, mediante un proceso de difusión que sincroniza fases en el paso forward y las desincroniza en el paso reverse para preservar patrones angulares coherentes.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artículo presenta el Sistema de Cámara de Imágenes de Desove y Larvas de Coral (CSLICS), una solución automatizada de bajo costo que utiliza visión por computadora para contar desoves de coral con precisión, reduciendo drásticamente el trabajo manual y facilitando la restauración de arrecifes a gran escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Este trabajo propone un método no supervisado para recuperar los mecanismos de codificación y decodificación de conceptos en redes neuronales profundas mediante la identificación de pares de direcciones latentes, lo que permite desvelar conceptos interpretables, explicar predicciones y corregir errores sin depender de la reconstrucción de características.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

El artículo presenta v-HUB, un nuevo benchmark de comprensión del humor en videos que utiliza clips no verbales y anotaciones ricas para evaluar modelos de lenguaje multimodal, demostrando que la integración de pistas auditivas mejora significativamente la capacidad de los modelos para entender el humor visual.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

El artículo presenta LLaVAShield, un sistema de seguridad diseñado para auditar diálogos multimodales de múltiples turnos en modelos de visión-idioma, respaldado por el nuevo conjunto de datos MMDS y el marco de red teaming MMRT, que supera a las herramientas existentes al abordar riesgos contextuales y de intención oculta.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Este estudio presenta un pipeline de aprendizaje profundo escalable que, mediante un enfoque de U-Net de doble paso aplicado a mapas históricos, genera el primer conjunto de datos nacional de huellas urbanas abierto para Francia entre 1925 y 1950, superando las limitaciones de ruido y artefactos de los mapas antiguos.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

El artículo presenta NavSpace, un nuevo benchmark diseñado para evaluar sistemáticamente la inteligencia espacial de los agentes de navegación, y propone SNav, un modelo que supera a los existentes tanto en este benchmark como en pruebas con robots reales.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artículo presenta DuNe, un marco de aprendizaje dual que aborda el desafío de la generalización de dominio en la segmentación semántica 3D de LiDAR bajo etiquetas ruidosas, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos mediante la consistencia de características y el filtrado basado en confianza.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

El artículo presenta RECODE, un marco agéntico que mejora el razonamiento visual en modelos multimodales al transformar la percepción de imágenes estructuradas en código ejecutable verificable mediante un proceso de generación, selección y refinamiento iterativo, logrando así un rendimiento superior en benchmarks como CharXiv y ChartQA.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Este trabajo presenta un marco de compresión de video neuronal en tiempo real que unifica la codificación intra e inter en un único modelo adaptativo, superando las limitaciones de propagación de errores y manejo de contenido nuevo de los métodos anteriores para lograr una reducción del 12,1% en la tasa BD-rate con rendimiento en tiempo real.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

El artículo presenta FALCON, un nuevo paradigma que mejora los modelos de visión-idioma-acción inyectando tokens espaciales 3D ricos derivados de modelos fundacionales en la cabeza de acción, logrando un rendimiento superior y una mayor robustez en tareas del mundo real sin comprometer el razonamiento lingüístico.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Este artículo demuestra que la selección estratégica de un subconjunto específico de hitos corporales, combinada con técnicas de imputación, permite reconocer signos aislados de la LIBRAS con una precisión comparable o superior a los métodos actuales mientras reduce el tiempo de procesamiento en más de cinco veces.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

El artículo presenta SynHLMA, un marco innovador que genera secuencias de manipulación de manos para objetos articulados a partir de instrucciones en lenguaje natural, utilizando una representación discreta de la interacción mano-objeto y un modelo de lenguaje alineado para lograr tareas de generación, predicción e interpolación con aplicaciones en robótica.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

El artículo presenta FRIDA, un marco ligero y eficiente que utiliza características de modelos de difusión preentrenados para detectar imágenes generadas por IA y atribuir su fuente con alto rendimiento en escenarios de generalización cruzada.

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs

← Anterior Siguiente →