cs.CV artigos | Gist.Science

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

O artigo apresenta o DSV, um método que acelera o treinamento de DiTs de vídeo em larga escala explorando a esparsidade dinâmica da atenção através de aproximação de baixo posto, kernels personalizados e paralelismo de contexto híbrido, alcançando um aumento de até 3,02 vezes no rendimento de treinamento sem perda de qualidade.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

Este artigo propõe um método de marcação d'água robusto e sem necessidade de retreinamento, aplicado durante a inferência de modelos generativos como os de difusão, para garantir a detecção de conteúdo sintético e a identificação do usuário mesmo sob ataques de remoção ou perturbações.

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

O artigo apresenta o JiSAM, um método plug-and-play que combina aumento por jitter, um backbone consciente do domínio e alinhamento setorial baseado em memória para permitir que modelos de percepção de direção autônoma atinjam desempenho comparável ao treinado com todos os dados reais utilizando apenas 2,5% de dados reais rotulados e dados sintéticos, superando assim o custo de anotação e o problema de casos extremos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

O artigo apresenta o ARPG, um modelo de geração de imagens autoregressivo inovador que utiliza um mecanismo de decodificação paralela aleatória e um quadro de decodificação desacoplado para superar as limitações de eficiência e generalização dos métodos convencionais, permitindo inferência rápida, redução de memória e capacidades zero-shot como preenchimento e expansão de resolução.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

Este trabalho propõe uma abordagem inovadora baseada em modelos de difusão para gerar dados sintéticos de cenas 3D semânticas realistas sem depender de projeções ou modelos desacoplados, demonstrando que o uso desses dados sintéticos no treinamento de redes de segmentação semântica melhora o desempenho do modelo e reduz a necessidade de anotação manual de dados reais.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

O artigo apresenta o TextCrafter, um framework de geração de texto visual complexo que utiliza mecanismos inovadores de "isolamento e atenção" baseados em aprendizado por reforço e portas de atenção guiadas por citações para superar o estado da arte em precisão e qualidade, além de introduzir o novo benchmark CVTG-2K.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

O artigo apresenta o KARMMA, um framework de destilação de conhecimento multimodal para reconhecimento de ações egocêntricas que, ao não exigir alinhamento de modalidades durante o treinamento e ser robusto a entradas faltantes, permite a implantação eficiente em robôs com configurações de sensores variadas e recursos computacionais reduzidos.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

Os autores investigam os parâmetros ideais para a geração de dados sintéticos em correspondência estéreo zero-shot, criando um novo conjunto de dados que supera a mistura de datasets existentes e rivaliza com o FoundationStereo, enquanto disponibilizam o código de geração e a análise de parâmetros como recursos de código aberto.

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

O artigo apresenta o FermatSyn, um novo método para síntese de imagens médicas multimodais que combina um codificador baseado no SAM2, um módulo de downsampling residual hierárquico e uma estratégia de varredura em espiral de Fermat bidirecional para superar as limitações de consistência anatômica global e detalhe local, demonstrando desempenho superior e utilidade clínica em diversos conjuntos de dados.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

Este artigo examina a integração de métodos baseados em grafos na análise de séries temporais de imagens de satélite, apresentando um pipeline versátil para modelar interações espaciais e temporais em nível de objeto, com revisões abrangentes e estudos de caso que demonstram seu potencial para mapeamento de cobertura do solo e previsão de recursos hídricos.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

O artigo apresenta o MIRAGE, um quadro de restauração de imagens eficiente e agnóstico à degradação que combina decomposição funcional por canal e regularização de variedade para alcançar desempenho superior e escalabilidade em cenários diversos.

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

O artigo apresenta o OmniFall, um benchmark unificado e multi-domínio que combina dados de quedas encenadas, sintéticas e reais (in-the-wild) com anotações densas padronizadas, permitindo o desenvolvimento e avaliação de modelos robustos de detecção de quedas que generalizam para ambientes não controlados enquanto preservam a privacidade.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

O artigo apresenta o Cora, um novo framework de edição de imagens baseado em difusão que utiliza correção de ruído consciente de correspondência e mapas de atenção interpolados para realizar edições estruturais complexas com alta fidelidade na preservação de texturas, pose e identidade.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

Este artigo apresenta o ECAM, um módulo baseado em aprendizado contrastivo que pode ser integrado a modelos existentes de previsão de trajetória humana para melhorar significativamente a capacidade de evitar colisões com obstáculos ambientais, reduzindo a taxa de colisão em até 50% nos conjuntos de dados ETH/UCY.

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

O artigo propõe o LLM-EMF, uma abordagem inovadora para recomendação sequencial multodomínio que integra conhecimento de Grandes Modelos de Linguagem e dados multimodais (texto e imagem) por meio de um mecanismo de atenção múltipla, demonstrando superioridade em quatro conjuntos de dados de comércio eletrônico ao capturar preferências complexas de usuários.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

O artigo propõe o LTKD, um novo framework de distilação de conhecimento que mitiga o viés de modelos treinados em distribuições de cauda longa ao decompor a função de perda e reequilibrar as contribuições entre classes frequentes e raras, superando assim os métodos existentes em precisão geral e de cauda.

Seonghak Kim2026-03-02💻 cs

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

O artigo apresenta o DyME, um novo paradigma de treinamento que equilibra dinamicamente a memorização via ajuste fino supervisionado e a exploração via aprendizado por reforço, complementado por supervisão visual, para capacitar Modelos Visuais-Linguísticos de pequena escala a desenvolver capacidades de raciocínio robustas em tarefas especializadas.

Jiazhen Liu, Yuchuan Deng, Long Chen2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

O artigo apresenta o SelvaBox, o maior conjunto de dados aberto para detecção de copas de árvores tropicais em imagens de drones, demonstrando que seu uso, seja isoladamente ou em treinamento conjunto, permite o desenvolvimento de modelos robustos com alto desempenho em diferentes cenários e resoluções.

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Concept-based Adversarial Attack: a Probabilistic Perspective

Este artigo propõe uma nova abordagem de ataque adversarial baseada em conceitos e perspectiva probabilística que, ao operar sobre distribuições em vez de imagens individuais, gera exemplos adversariais diversos e eficazes que preservam a identidade do conceito original.

Andi Zhang, Xuan Ding, Steven McDonagh + 1 more2026-03-02🤖 cs.AI

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

Este trabalho demonstra o uso de Máquinas de Reforço Explicáveis (EBMs) em uma colaboração humano-máquina para identificar topos de nuvens penetrantes em imagens de satélite, utilizando técnicas de aprendizado de máquina guiado por conhecimento para extrair características escalares e criar um modelo meteorológico totalmente interpretável que incorpora estratégias humanas, mesmo que com uma precisão ligeiramente inferior a abordagens mais complexas.

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

← Anterior Próximo →