cs.CV artigos | Gist.Science

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Este trabalho apresenta o MMHNet, uma rede hierárquica multimodal aprimorada que utiliza Mamba não causal para permitir a geração de áudio longo (superior a 5 minutos) a partir de vídeos, demonstrando que modelos treinados em instâncias curtas podem generalizar eficazmente para durações maiores sem necessidade de treinamento específico nesses intervalos.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Este trabalho apresenta o cVMDx, um modelo de difusão aprimorado que utiliza amostragem DDIM para prever trajetórias viárias multimodais com alta precisão e incerteza, reduzindo o tempo de inferência em até 100 vezes em comparação com abordagens anteriores.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

Scaling View Synthesis Transformers

Este artigo apresenta um estudo sistemático sobre as leis de escalabilidade para transformadores de síntese de visão, introduzindo o Modelo de Síntese de Visão Escalável (SVSM), uma arquitetura codificador-decodificador que alcança desempenho superior com menor custo computacional, superando modelos anteriores e estabelecendo uma nova fronteira de eficiência em síntese de novas vistas.

Evan Kim, Hyunwoo Ryu, Thomas W. Mitchel + 1 more2026-02-26🤖 cs.AI

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

O artigo apresenta o RelA-Diffusion, um novo framework baseado em difusão adversarial relativista que utiliza sequências de ressonância magnética T1 e T2-FLAIR para sintetizar com alta fidelidade imagens de PET multi-tracador, superando métodos existentes na captura de detalhes anatômicos e patológicos.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

Towards Controllable Video Synthesis of Routine and Rare OR Events

Este trabalho apresenta um framework de difusão de vídeo para cirurgias que permite a síntese controlada de eventos rotineiros e raros a partir de representações geométricas abstratas, superando as limitações de dados para treinar e validar modelos de inteligência artificial na detecção de violações de campo estéril e outros eventos críticos de segurança.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

O artigo apresenta o MMLoP, um framework de aprendizado de prompts multi-modal que utiliza fatoração de baixo posto para adaptar modelos visão-linguagem como o CLIP a tarefas downstream com apenas 11,5 mil parâmetros treináveis, alcançando um equilíbrio superior entre precisão e eficiência e superando métodos existentes com milhões de parâmetros.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Este trabalho propõe um pipeline sem treinamento para Segmentação Temporal de Ações de Vocabulário Aberto e Zero-Shot (OVTAS), utilizando a similaridade entre embebedamentos de frames e rótulos de ações de Modelos Visão-Linguagem (VLMs) para superar as limitações de vocabulários fechados, validando sua eficácia através de uma análise sistemática em 14 VLMs diversos.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

O artigo apresenta o WildSVG, um novo benchmark composto por conjuntos de dados naturais e sintéticos para avaliar a extração de gráficos vetoriais escaláveis (SVG) a partir de imagens do mundo real, demonstrando que, embora os modelos multimodais atuais ainda tenham desempenho insuficiente em cenários complexos, métodos de refinamento iterativo oferecem um caminho promissor para superar essas limitações.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

Automating Timed Up and Go Phase Segmentation and Gait Analysis via the tugturn Markerless 3D Pipeline

Este artigo apresenta o \textit{tugturn.py}, um pipeline automatizado em Python para análise 3D sem marcadores do teste Timed Up and Go (TUG), que realiza segmentação de fases, detecção de eventos de marcha e cálculo de métricas de estabilidade e coordenação intersegmentar, gerando relatórios reprodutíveis para uso clínico e de pesquisa.

Abel Gonçalves Chinaglia, Guilherme Manna Cesar, Paulo Roberto Pereira Santiago2026-02-26💻 cs

PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models

O artigo apresenta o benchmark PSF-Med para medir a sensibilidade a paráfrases em Modelos de Linguagem e Visão Médica, identificando mecanismos neurais específicos que causam inconsistências nas respostas e demonstrando que a supressão controlada desses mecanismos reduz significativamente essas falhas com custo mínimo de precisão.

Binesh Sadanandan, Vahid Behzadan2026-02-26🤖 cs.LG

Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Este artigo propõe um framework de decodificação causal que intervém diretamente nos mecanismos de geração para reduzir alucinações de objetos em Modelos de Linguagem Multimodal, alcançando taxas de fidelidade superiores sem comprometer a qualidade geral da resposta.

Shiwei Tan, Hengyi Wang, Weiyi Qin + 3 more2026-02-26🤖 cs.AI

Adversarial Robustness of Deep Learning-Based Thyroid Nodule Segmentation in Ultrasound

Este estudo avalia a robustez adversarial de modelos de segmentação de nódulos tireoidianos em ultrassom, demonstrando que ataques baseados no domínio espacial podem ser parcialmente mitigados por técnicas de pré-processamento, enquanto perturbações no domínio de frequência permanecem resistentes a essas defesas.

Nicholas Dietrich, David McShannon2026-02-26🤖 cs.AI

Perceptual Quality Optimization of Image Super-Resolution

Este artigo propõe a Efficient-PBAN, uma rede de atenção bidirecional eficiente que otimiza a super-resolução de imagens para a qualidade perceptual humana, utilizando um novo conjunto de dados e uma métrica de perda diferenciável para superar o compromisso tradicional entre fidelidade e qualidade visual.

Wei Zhou, Yixiao Li, Hadi Amirpour + 4 more2026-02-26⚡ eess

Unified Unsupervised and Sparsely-Supervised 3D Object Detection by Semantic Pseudo-Labeling and Prototype Learning

O artigo apresenta o SPL, um quadro de treinamento unificado que combina rotulagem pseudo-semântica e aprendizado de protótipos para superar os desafios de baixa qualidade de rótulos e instabilidade de características, permitindo detecção de objetos 3D eficaz tanto em cenários não supervisionados quanto com supervisão esparsa.

Yushen He2026-02-26💻 cs

AHAN: Asymmetric Hierarchical Attention Network for Identical Twin Face Verification

O artigo propõe a AHAN (Asymmetric Hierarchical Attention Network), uma nova arquitetura que utiliza análise hierárquica de atenção e módulos focados em assimetria facial para superar os desafios da verificação de gêmeos idênticos, alcançando 92,3% de precisão no conjunto de dados ND_TWIN.

Hoang-Nhat Nguyen2026-02-26💻 cs

WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck

O artigo apresenta o WaterVIB, um framework fundamentado no Princípio do Gargalo de Informação Variacional que reformula a codificação de marcas d'água para aprender estatísticas suficientes mínimas, filtrando detalhes do conteúdo original e garantindo assim uma robustez superior contra ataques de regeneração baseados em AIGC.

Haoyuan He, Yu Zheng, Jie Zhou + 1 more2026-02-26🤖 cs.LG

Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning

Este artigo apresenta o TEA-CXA, um agente especializado em raios-X de tórax que utiliza aprendizado agêntico multimodal para aprender empiricamente a confiabilidade de diferentes ferramentas e resolver conflitos entre elas, superando os métodos atuais em análise médica.

Zheang Huai, Honglong Yang, Xiaomeng Li2026-02-26💻 cs

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

O artigo apresenta o LiLo-VLA, um framework modular que alcança generalização zero-shot em tarefas de manipulação de longo horizonte ao desacoplar transporte e interação, superando significativamente modelos VLA existentes em benchmarks de simulação e no mundo real.

Yue Yang, Shuo Cheng, Yu Fang + 4 more2026-02-26⚡ eess

Pseudo-View Enhancement via Confidence Fusion for Unposed Sparse-View Reconstruction

Este artigo propõe um novo framework para reconstrução 3D de cenas externas com vistas esparsas e não posicionadas, que utiliza restauração bidirecional de pseudo-quadros guiada por difusão e uma estratégia de gerenciamento de Gaussianas baseada em percepção da cena para melhorar a completude, a consistência geométrica e suprir artefatos flutuantes.

Beizhen Zhao, Sicheng Yu, Guanzhi Ding + 2 more2026-02-26💻 cs

IHF-Harmony: Multi-Modality Magnetic Resonance Images Harmonization using Invertible Hierarchy Flow Model

O artigo apresenta o IHF-Harmony, um framework unificado baseado em fluxo hierárquico invertível que realiza harmonização de ressonância magnética multimodais sem dados pareados, garantindo mapeamento biunívoco e reconstrução sem perdas para preservar a anatomia enquanto remove artefatos e melhora o desempenho em tarefas subsequentes.

Pengli Zhu, Yitao Zhu, Haowen Pang + 1 more2026-02-26💻 cs

← Anterior Próximo →