GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

O artigo propõe o GS-CLIP, um framework de detecção de anomalias 3D zero-shot que supera as limitações das abordagens atuais ao integrar prompts textuais ricos em priores geométricos e uma aprendizagem de representação sinérgica que funde características de imagens renderizadas e de profundidade para identificar defeitos com maior precisão.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

O artigo apresenta o TherA, um framework inovador que combina um modelo de linguagem visual termicamente consciente com um tradutor baseado em difusão latente para gerar imagens infravermelhas térmicas realistas e controláveis a partir de imagens RGB, superando as limitações de abordagens anteriores ao incorporar princípios físicos térmicos e permitindo síntese diversificada com base em condições ambientais e de objetos.

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang + 3 more2026-02-26💻 cs

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Este trabalho apresenta o MMHNet, uma rede hierárquica multimodal aprimorada que utiliza Mamba não causal para permitir a geração de áudio longo (superior a 5 minutos) a partir de vídeos, demonstrando que modelos treinados em instâncias curtas podem generalizar eficazmente para durações maiores sem necessidade de treinamento específico nesses intervalos.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Scaling View Synthesis Transformers

Este artigo apresenta um estudo sistemático sobre as leis de escalabilidade para transformadores de síntese de visão, introduzindo o Modelo de Síntese de Visão Escalável (SVSM), uma arquitetura codificador-decodificador que alcança desempenho superior com menor custo computacional, superando modelos anteriores e estabelecendo uma nova fronteira de eficiência em síntese de novas vistas.

Evan Kim, Hyunwoo Ryu, Thomas W. Mitchel + 1 more2026-02-26🤖 cs.AI

Towards Controllable Video Synthesis of Routine and Rare OR Events

Este trabalho apresenta um framework de difusão de vídeo para cirurgias que permite a síntese controlada de eventos rotineiros e raros a partir de representações geométricas abstratas, superando as limitações de dados para treinar e validar modelos de inteligência artificial na detecção de violações de campo estéril e outros eventos críticos de segurança.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

O artigo apresenta o MMLoP, um framework de aprendizado de prompts multi-modal que utiliza fatoração de baixo posto para adaptar modelos visão-linguagem como o CLIP a tarefas downstream com apenas 11,5 mil parâmetros treináveis, alcançando um equilíbrio superior entre precisão e eficiência e superando métodos existentes com milhões de parâmetros.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Este trabalho propõe um pipeline sem treinamento para Segmentação Temporal de Ações de Vocabulário Aberto e Zero-Shot (OVTAS), utilizando a similaridade entre embebedamentos de frames e rótulos de ações de Modelos Visão-Linguagem (VLMs) para superar as limitações de vocabulários fechados, validando sua eficácia através de uma análise sistemática em 14 VLMs diversos.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

O artigo apresenta o WildSVG, um novo benchmark composto por conjuntos de dados naturais e sintéticos para avaliar a extração de gráficos vetoriais escaláveis (SVG) a partir de imagens do mundo real, demonstrando que, embora os modelos multimodais atuais ainda tenham desempenho insuficiente em cenários complexos, métodos de refinamento iterativo oferecem um caminho promissor para superar essas limitações.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

Automating Timed Up and Go Phase Segmentation and Gait Analysis via the tugturn Markerless 3D Pipeline

Este artigo apresenta o \textit{tugturn.py}, um pipeline automatizado em Python para análise 3D sem marcadores do teste Timed Up and Go (TUG), que realiza segmentação de fases, detecção de eventos de marcha e cálculo de métricas de estabilidade e coordenação intersegmentar, gerando relatórios reprodutíveis para uso clínico e de pesquisa.

Abel Gonçalves Chinaglia, Guilherme Manna Cesar, Paulo Roberto Pereira Santiago2026-02-26💻 cs