cs.CV artigos | Gist.Science

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

O artigo propõe o IV-tuning, um método de aprendizado por transferência eficiente em parâmetros que, ao congelar a maior parte dos pesos de modelos visuais pré-treinados e treinar apenas 3% dos parâmetros, supera os métodos atuais em diversas tarefas de fusão infravermelho-visível, oferecendo melhor generalização e eficiência computacional.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

O artigo apresenta o MomentMix, uma técnica de aumento de dados que combina ForegroundMix e BackgroundMix, e um Decodificador Sensível ao Comprimento (Length-Aware Decoder) para melhorar a recuperação de momentos curtos em vídeos, superando os métodos baseados em DETR existentes em benchmarks como QVHighlights e TACoS.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Este trabalho apresenta o JOSH, um método de otimização que reconstrói simultaneamente o movimento humano e o ambiente 4D a partir de vídeos monoculares capturados no mundo real, utilizando restrições de contato humano-cenário para melhorar a precisão, além de propor o modelo JOSH3R, treinado com pseudo-rótulos derivados do JOSH para alcançar resultados superiores sem necessidade de otimização.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

Este artigo demonstra que purificadores adversariais não baseados em difusão podem superar modelos de difusão em robustez e generalização, alcançando desempenho de ponta ao serem treinados no CIFAR-10 e testados diretamente no ImageNet sem dados adicionais.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

Este trabalho apresenta o Dual-IPO, uma abordagem iterativa que otimiza simultaneamente e de forma recíproca modelos de recompensa e de geração de vídeo para alinhar a síntese às preferências humanas e melhorar a qualidade visual sem a necessidade de anotações manuais tediosas.

Xiaomeng Yang, Mengping Yang, Jia Gong + 3 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

O artigo apresenta o RelaCtrl, um framework que otimiza a geração controlada em Diffusion Transformers ao adaptar a integração dos sinais de controle com base na relevância de cada camada e introduzir o Two-Dimensional Shuffle Mixer, alcançando desempenho superior com apenas 15% dos parâmetros e complexidade computacional do PixArt-delta.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

Este trabalho apresenta o U-F²-CBM, um modelo de conceitos de gargalo não supervisionado, livre de rótulos e independente do CLIP, que converte qualquer classificador visual congelado em um modelo interpretável alinhando distribuições de classes visuais e textuais, superando o estado da arte em tarefas de classificação e legendagem de imagens.

Fawaz Sammani, Jonas Fischer, Nikos Deligiannis2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

O artigo apresenta o UniFuture, um modelo unificado de mundo 4D para direção autônoma que, por meio de esquemas de compartilhamento de latentes e interação multiescala, gera sequências futuras de imagens e mapas de profundidade geometricamente consistentes, superando modelos especializados em tarefas de geração e percepção.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

GmNet: Revisiting Gating Mechanisms From A Frequency View

Este artigo propõe o GmNet, uma rede leve que revisita os mecanismos de portão a partir de uma perspectiva de frequência para minimizar o viés de baixas frequências e melhorar a eficiência no aprendizado de dependências de longo alcance.

Yifan Wang, Xu Ma, Yitian Zhang + 5 more2026-02-27💻 cs

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

O artigo apresenta o ViT-Linearizer, um framework de destilação que transfere o conhecimento de modelos Vision Transformers para arquiteturas lineares e recursivas, como o Mamba, alcançando alta eficiência computacional e desempenho competitivo em tarefas de visão computacional.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

O artigo apresenta o LAMM-ViT, um modelo Vision Transformer inovador que utiliza modulação de máscara consciente da camada e atenção guiada por regiões para detectar faces sintéticas com alta precisão e generalização superior às técnicas atuais.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds

Este artigo propõe um framework de detecção 3D robusto para nuvens de pontos comprimidas que utiliza previsão de refletância baseada em geometria e destilação de conhecimento para reconstruir informações de refletância descartadas, melhorando significativamente a precisão da detecção em cenários de banda limitada.

Hao Jing, Anhong Wang, Yifan Zhang + 2 more2026-02-27💻 cs

Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

O artigo apresenta o BriGeS, um método eficiente que funde modelos de base geométrica e semântica por meio de um "Bridging Gate" e de uma técnica de escalonamento de temperatura para aprimorar a estimativa de profundidade monocular em cenas complexas, mantendo baixo custo de treinamento e alta capacidade de generalização.

Sanggyun Ma, Wonjoon Choi, Jihun Park + 4 more2026-02-27💻 cs

Sparse Imagination for Efficient Visual World Model Planning

O artigo propõe o "Sparse Imagination", um método que utiliza um modelo de mundo visual baseado em transformadores com atenção agrupada aleatória para reduzir o processamento de tokens durante a previsão futura, permitindo um planejamento mais eficiente e em tempo real em robótica sem comprometer a fidelidade do controle.

Junha Chun, Youngjoon Jeong, Taesup Kim2026-02-27🤖 cs.AI

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

O artigo apresenta o LinGuinE, um framework PyTorch inovador que combina registro de imagens e segmentação guiada para realizar a segmentação volumétrica longitudinal de tumores e o rastreamento de lesões em múltiplos exames a partir de uma única interação do radiologista, alcançando desempenho superior ao estado da arte sem necessidade de treinamento em dados longitudinais.

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess

Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion

Este artigo apresenta um novo framework baseado em Ponte de Schrödinger e difusão condicional guiada por feedback humano binário para tradução de imagens CBCT para MDCT, que suprime eficazmente artefatos de sombra e preserva detalhes anatômicos com alta fidelidade e apenas 10 passos de amostragem.

Sung Ho Kang, Hyun-Cheol Park2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

Este artigo propõe uma abordagem baseada em causalidade que substitui a suposição de independência e distribuição idêntica (i.i.d.) pela de permutabilidade para gerenciar deslocamentos de distribuição em dados agrupados, resultando em desempenho superior de segmentação de imagens médicas escassas em cinco conjuntos de dados, incluindo um novo conjunto de ultrassom.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

O artigo apresenta o LayerT2V, um framework unificado de geração de vídeo que, aproveitando a alta compressão de backbones recentes e um novo dataset chamado VidLayer, produz em uma única inferência vídeos completos com camadas de fundo e múltiplos objetos em primeiro plano com máscaras alfa, garantindo consistência semântica e temporal superior para fluxos de trabalho profissionais.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

O artigo apresenta o RAP, um quadro unificado que utiliza um mecanismo de atenção híbrido e um paradigma de treinamento-inferência estático-dinâmico para gerar vídeos realistas de rostos falantes a partir de áudio e uma única imagem, alcançando desempenho de ponta com restrições de tempo real.

Fangyu Du, Taiqing Li, Qian Qiao + 7 more2026-02-27⚡ eess

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

O artigo apresenta o MixCache, um framework de inferência sem treinamento para modelos de difusão de vídeo baseados em Transformer que acelera significativamente a geração de vídeo ao combinar estratégias de cache de múltiplas granularidades com decisões adaptativas e acionamento baseado em contexto, superando os métodos existentes em velocidade e qualidade.

Yuanxin Wei, Lansong Diao, Bujiao Chen + 6 more2026-02-27🤖 cs.LG

← Anterior Próximo →