cs.CV artigos | Gist.Science

Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation

O artigo apresenta o Flash-VAED, uma estrutura universal de aceleração para decodificadores VAE que, através de poda de canais, otimização de operadores e destilação dinâmica, reduz significativamente a latência na geração de vídeo mantendo alta qualidade de reconstrução.

Lunjie Zhu, Yushi Huang, Xingtong Ge + 5 more2026-02-24💻 cs

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

O artigo apresenta o JavisDiT++, um framework unificado que utiliza um design de mistura de especialistas específico por modalidade, uma estratégia de RoPE alinhada temporalmente e otimização direta de preferências áudio-vídeo para superar as limitações dos métodos atuais na geração sincronizada e de alta qualidade de áudio e vídeo a partir de descrições textuais.

Kai Liu, Yanhao Zheng, Kai Wang + 7 more2026-02-24💻 cs

BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment

O artigo apresenta o BriMA, uma abordagem inovadora para a Avaliação Contínua da Qualidade de Ações Multimodal que supera o desequilíbrio de modalidades em cenários reais através de um módulo de imputação guiado por memória e um mecanismo de replay consciente das modalidades, demonstrando melhorias significativas de desempenho em conjuntos de dados diversos.

Kanglei Zhou, Chang Li, Qingyi Pan + 1 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

O artigo apresenta o EMAD, um framework de visão e linguagem que utiliza mecanismos de fundamentação hierárquica, destilação de conhecimento e ajuste fino por reforço para gerar relatórios diagnósticos de Alzheimer transparentes, clinicamente consistentes e explicitamente fundamentados em evidências multimodais, alcançando desempenho superior no conjunto de dados AD-MultiSense.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery

Este artigo apresenta um método de recuperação de malha humana baseado em difusão que utiliza um agente crítico guiado por VLM com memória dupla e autorreflexão para criar um conjunto de dados de preferências em grupo, permitindo um alinhamento que gera malhas 3D mais fisicamente plausíveis e consistentes com a imagem de entrada.

Wenhao Shen, Hao Wang, Wanqi Yin + 5 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

O artigo apresenta o PositionOCR, uma arquitetura híbrida eficiente em parâmetros que integra as capacidades de localização espacial de modelos especializados em detecção de texto com o raciocínio contextual de Grandes Modelos de Linguagem, superando os modelos multimodais tradicionais em tarefas de reconhecimento e fundamentação de texto.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

Prompt Tuning for CLIP on the Pretrained Manifold

O artigo apresenta o ManiPT, um framework que melhora o ajuste de prompts em modelos CLIP sob supervisão limitada ao restringir as representações aprendidas à variedade pré-treinada por meio de restrições de consistência e viés estrutural, resultando em melhor generalização e mitigação de overfitting.

Xi Yang, Yuanrong Xu, Weigang Zhang + 3 more2026-02-24💻 cs

UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models

O artigo apresenta o UniE2F, um framework unificado que utiliza modelos de difusão de vídeo pré-treinados e um guia de resíduo interquadro baseado em eventos para reconstruir com alta fidelidade quadros de vídeo a partir de dados esparsos de câmeras de eventos, superando métodos anteriores tanto quantitativa quanto qualitativamente.

Gang Xu, Zhiyu Zhu, Junhui Hou2026-02-24💻 cs

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

O artigo apresenta o SegMoTE, um framework adaptativo e eficiente para segmentação de imagens médicas que, ao preservar a interface de prompts e a generalização zero-shot do SAM, utiliza um mecanismo de tokenização progressiva e é treinado em um conjunto de dados altamente curado (MedSeg-HQ) para alcançar desempenho de ponta com custo de anotação extremamente baixo.

Yujie Lu, Jingwen Li, Sibo Ju + 5 more2026-02-24💻 cs

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Este artigo propõe o modelo KRSVQG, que integra conhecimento comum externo e legendagem de imagens para gerar perguntas ricas e diversificadas sobre imagens de sensoriamento remoto, superando as limitações dos métodos atuais baseados em templates e validado através de novos conjuntos de dados e avaliações humanas.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Este trabalho apresenta um método de manipulação facial no espaço latente semântico de um gerador pré-treinado que, ao utilizar condicionamento dependente e projeção ortogonal para reduzir o entrelaçamento de atributos, gera dados sintéticos de alta qualidade para aumentar e equilibrar conjuntos de dados de Análise de Unidades de Ação (AU), melhorando significativamente a precisão e a robustez dos detectores de expressão facial com menos dados rotulados.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

Knowledge-aware Visual Question Generation for Remote Sensing Images

Este artigo apresenta o modelo KRSVQG, uma abordagem de geração de perguntas visuais para imagens de sensoriamento remoto que integra conhecimento externo e legendas de imagem para produzir perguntas mais ricas, diversificadas e contextualizadas, superando métodos existentes em dois conjuntos de dados anotados manualmente.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

RegionRoute: Regional Style Transfer with Diffusion Model

O artigo apresenta o RegionRoute, um framework de difusão supervisionado por atenção que utiliza uma arquitetura LoRA-MoE e novas funções de perda para realizar transferência de estilo regional precisa e sem máscaras, superando as limitações de métodos existentes ao garantir a correspondência estilística em regiões específicas enquanto preserva a identidade do restante da imagem.

Bowen Chen, Jake Zuena, Alan C. Bovik + 1 more2026-02-24💻 cs

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Este artigo apresenta o CORVET, um motor de processamento vetorial adaptável e eficiente em recursos para IA na borda, que utiliza unidades MAC baseadas em CORDIC e execução com precisão mista para alcançar alta taxa de transferência e eficiência energética em aplicações de IAoT.

Sonu Kumar, Mohd Faisal Khan, Mukul Lokhande + 1 more2026-02-24⚡ eess

DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

O artigo apresenta o DD-CAM, um framework sem gradiente que utiliza a técnica de *delta debugging* para identificar subconjuntos mínimos e suficientes de unidades de representação em modelos de visão computacional, gerando mapas de saliência mais fiéis e precisos do que os métodos baseados em CAM existentes.

Krishna Khadka, Yu Lei, Raghu N. Kacker + 1 more2026-02-24💻 cs

A Two-Stage Detection-Tracking Framework for Stable Apple Quality Inspection in Dense Conveyor-Belt Environments

Este artigo apresenta um framework de dois estágios que combina detecção YOLOv8, rastreamento ByteTrack e classificação ResNet18 para garantir inspeção de qualidade estável e temporalmente consistente de maçãs em esteiras rolantes industriais densas.

Keonvin Park, Aditya Pal, Jin Hong Mok2026-02-24💻 cs

MRI Contrast Enhancement Kinetics World Model

Este artigo apresenta o MRI CEKWorld, um modelo de mundo que utiliza Aprendizado de Consistência Espaço-Temporal (STCL) para superar as limitações de baixa resolução temporal e amostragem esparsa na aquisição de ressonância magnética com contraste, gerando dinâmicas contínuas e realistas através de Aprendizado de Alinhamento Latente (LAL) para consistência estrutural e Aprendizado de Diferença Latente (LDL) para suavidade temporal.

Jindi Kong, Yuting He, Cong Xia + 2 more2026-02-24💻 cs

WildOS: Open-Vocabulary Object Search in the Wild

O artigo apresenta o WildOS, um sistema unificado que combina exploração geométrica segura com raciocínio visual semântico baseado em modelos de fundação e localização por filtro de partículas para permitir que robôs naveguem de forma robusta e eficiente em busca de objetos com vocabulário aberto em ambientes externos complexos e não estruturados.

Hardik Shah, Erica Tevere, Deegan Atha + 6 more2026-02-24💻 cs

IPv2: An Improved Image Purification Strategy for Real-World Ultra-Low-Dose Lung CT Denoising

O artigo apresenta o IPv2, uma estratégia aprimorada de purificação de imagens que introduz três módulos essenciais para corrigir limitações anteriores, permitindo a remoção eficaz de ruído tanto no fundo quanto no parênquima pulmonar em tomografias computadorizadas de tórax ultra-baixa dose do mundo real.

Guoliang Gong, Man Yu2026-02-24🤖 cs.AI

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

O artigo apresenta o USR 2.0, um método de pseudo-rotulagem eficiente e robusto para reconhecimento unificado de fala que utiliza forçamento de professor baseado em CTC para reduzir o tempo de treinamento pela metade e melhorar a precisão em cenários fora da distribuição, superando os resultados anteriores.

Alexandros Haliassos, Rodrigo Mira, Stavros Petridis2026-02-24💻 cs

← Anterior Próximo →