Towards Controllable Video Synthesis of Routine and Rare OR Events

Este trabalho apresenta um framework de difusão de vídeo para cirurgias que permite a síntese controlada de eventos rotineiros e raros a partir de representações geométricas abstratas, superando as limitações de dados para treinar e validar modelos de inteligência artificial na detecção de violações de campo estéril e outros eventos críticos de segurança.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

O artigo apresenta o MMLoP, um framework de aprendizado de prompts multi-modal que utiliza fatoração de baixo posto para adaptar modelos visão-linguagem como o CLIP a tarefas downstream com apenas 11,5 mil parâmetros treináveis, alcançando um equilíbrio superior entre precisão e eficiência e superando métodos existentes com milhões de parâmetros.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Este trabalho propõe um pipeline sem treinamento para Segmentação Temporal de Ações de Vocabulário Aberto e Zero-Shot (OVTAS), utilizando a similaridade entre embebedamentos de frames e rótulos de ações de Modelos Visão-Linguagem (VLMs) para superar as limitações de vocabulários fechados, validando sua eficácia através de uma análise sistemática em 14 VLMs diversos.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

O artigo apresenta o WildSVG, um novo benchmark composto por conjuntos de dados naturais e sintéticos para avaliar a extração de gráficos vetoriais escaláveis (SVG) a partir de imagens do mundo real, demonstrando que, embora os modelos multimodais atuais ainda tenham desempenho insuficiente em cenários complexos, métodos de refinamento iterativo oferecem um caminho promissor para superar essas limitações.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

Automating Timed Up and Go Phase Segmentation and Gait Analysis via the tugturn Markerless 3D Pipeline

Este artigo apresenta o \textit{tugturn.py}, um pipeline automatizado em Python para análise 3D sem marcadores do teste Timed Up and Go (TUG), que realiza segmentação de fases, detecção de eventos de marcha e cálculo de métricas de estabilidade e coordenação intersegmentar, gerando relatórios reprodutíveis para uso clínico e de pesquisa.

Abel Gonçalves Chinaglia, Guilherme Manna Cesar, Paulo Roberto Pereira Santiago2026-02-26💻 cs

Pseudo-View Enhancement via Confidence Fusion for Unposed Sparse-View Reconstruction

Este artigo propõe um novo framework para reconstrução 3D de cenas externas com vistas esparsas e não posicionadas, que utiliza restauração bidirecional de pseudo-quadros guiada por difusão e uma estratégia de gerenciamento de Gaussianas baseada em percepção da cena para melhorar a completude, a consistência geométrica e suprir artefatos flutuantes.

Beizhen Zhao, Sicheng Yu, Guanzhi Ding + 2 more2026-02-26💻 cs

IHF-Harmony: Multi-Modality Magnetic Resonance Images Harmonization using Invertible Hierarchy Flow Model

O artigo apresenta o IHF-Harmony, um framework unificado baseado em fluxo hierárquico invertível que realiza harmonização de ressonância magnética multimodais sem dados pareados, garantindo mapeamento biunívoco e reconstrução sem perdas para preservar a anatomia enquanto remove artefatos e melhora o desempenho em tarefas subsequentes.

Pengli Zhu, Yitao Zhu, Haowen Pang + 1 more2026-02-26💻 cs