cs.CV artigos | Gist.Science

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Este estudo utiliza técnicas de interpretabilidade mecânica para mapear o fluxo de informação interno em VideoLLMs, revelando padrões consistentes de raciocínio temporal e integração multimodal que permitem otimizar o desempenho ao suprimir conexões de atenção desnecessárias.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Este artigo apresenta o "Self-Aug", uma estratégia de decodificação sem treinamento para Modelos Visuais-Linguísticos de Grande Escala que combina uma estratégia de prompt de auto-aumento dependente da consulta e um algoritmo de limiar adaptativo baseado em entropia para mitigar alucinações e melhorar a consistência factual.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Este trabalho propõe o uso de um modelo de difusão incondicional treinado em dados do HiRISE para reconstruir com maior precisão e coerência geométrica as áreas faltantes de mapas de altura de Marte, superando significativamente as técnicas tradicionais de interpolação e preenchimento de vazios.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

O artigo apresenta o CASR-Net, uma rede de aprendizado profundo de três estágios que combina pré-processamento avançado, um codificador DenseNet121 e um decodificador Self-ONN para realizar a segmentação e refinamento precisos de artérias coronárias em angiogramas, superando modelos existentes e oferecendo uma ferramenta robusta para auxiliar no diagnóstico clínico.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

O artigo apresenta o Kinematify, um framework automatizado que sintetiza objetos articulados de alto grau de liberdade diretamente a partir de imagens RGB ou descrições textuais, inferindo topologias cinemáticas e parâmetros de junta para superar as limitações de escalabilidade dos métodos existentes.

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

O artigo apresenta o DetGain, um método de curadoria de dados online para detecção de objetos que estima a contribuição marginal de cada imagem para a precisão média do conjunto de dados, permitindo a seleção dinâmica de amostras informativas que melhoram a acurácia e a robustez em diversos detectores.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

O artigo apresenta o PrismAudio, um framework inovador que integra Aprendizado por Reforço com raciocínio Chain-of-Thought decomposto e recompensas multidimensionais para resolver o problema de entrelaçamento de objetivos na geração de áudio a partir de vídeo, alcançando desempenho de ponta em consistência semântica, sincronia temporal, qualidade estética e precisão espacial.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

O artigo apresenta o Markov-VAR, um novo modelo de geração visual autoregressiva que reformula o processo como uma cadeia de Markov com previsão de escala não de contexto total, utilizando uma janela deslizante para comprimir o histórico e alcançar melhor desempenho e eficiência computacional em comparação com o modelo VAR original.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Este artigo apresenta o ALARM, um framework baseado em MLLM para detecção de anomalias visuais em ambientes complexos que integra quantificação de incerteza e técnicas de garantia de qualidade para alcançar decisões robustas e confiáveis em diversos domínios.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Este artigo apresenta o SSMP, um novo método de previsão mascarada auto-ajustável e auto-corretivo que supera as abordagens tradicionais de "seleção-então-classificação" na geração automática de trailers de filmes, alcançando resultados state-of-the-art através de modelagem contextual bidirecional e um mecanismo de correção progressiva que imita o trabalho de editores humanos.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Este trabalho apresenta o VGG-Flow, um método de ajuste fino baseado em correspondência de gradientes que utiliza teoria de controle ótimo para alinhar modelos de correspondência de fluxo com preferências humanas de forma eficiente e preservando a distribuição anterior, demonstrando eficácia no modelo Stable Diffusion 3.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

O artigo apresenta o AVI-Edit, um framework inovador para edição de instâncias em vídeos sincronizados com áudio, que utiliza um refinador de máscaras sensível à granularidade e um agente de áudio com auto-retroalimentação para garantir controle espacial e temporal preciso, apoiado por um novo conjunto de dados de grande escala.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

O artigo apresenta o CHAMMI-75, um conjunto de dados aberto com imagens de microscopia multicanal heterogêneas de 75 estudos biológicos, que permite o treinamento de modelos adaptáveis a diferentes canais e melhora o desempenho na quantificação da morfologia celular.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

O artigo apresenta o UniDrive-WM, um modelo de mundo unificado baseado em modelos de linguagem e visão que integra compreensão de cena, planejamento de trajetória e geração de imagens futuras em uma única arquitetura, demonstrando melhorias significativas no desempenho de direção autônoma no benchmark Bench2Drive.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Este artigo demonstra que o uso de imagens de baixa resolução (até 8x8 pixels) de caracteres chineses como entrada visual para modelos de linguagem pode alcançar desempenho comparável ao de tokens baseados em índices, oferecendo uma representação alternativa e eficiente que explora a estrutura visual da escrita logográfica.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Este artigo apresenta o LGANet++, uma nova estrutura de registro de imagens deformáveis não supervisionada que utiliza um mecanismo de atenção local-global e decomposição de imagens para superar os métodos existentes, demonstrando desempenho superior em diversas tarefas de registro médico através de cinco conjuntos de dados públicos.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

Este artigo apresenta o GraSP, um método unificado e versátil para reconhecimento de gráficos em imagens por meio da predição de subgrafos, capaz de ser transferido entre diferentes tarefas sem modificações específicas.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

O artigo apresenta o MLV-Edit, uma estrutura de edição de vídeo baseada em fluxo e sem treinamento que utiliza uma estratégia de dividir e conquistar, combinando os módulos Velocity Blend e Attention Sink, para editar vídeos de minutos com alta eficiência e consistência temporal global.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

O artigo apresenta o VideoTemp-o3, um framework unificado de pensamento agencial para vídeos que harmoniza a localização temporal e a compreensão de vídeo, superando as limitações de métodos existentes através de um mecanismo de mascaramento unificado, recompensas dedicadas para reforço e um pipeline de dados de alta qualidade, resultando em desempenho superior na compreensão e localização em vídeos longos.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

O artigo apresenta o WristMIR, um framework de recuperação de radiografias de punho pediátricas que utiliza relatórios radiológicos estruturados e localização específica de ossos para realizar uma busca em duas etapas (global e regional), demonstrando melhorias significativas na precisão da recuperação de casos e no diagnóstico de fraturas em comparação com abordagens existentes.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

← Anterior Próximo →