cs.CV artigos | Gist.Science

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

O artigo apresenta o Dyslexify, um método de defesa sem necessidade de ajuste fino que protege modelos CLIP contra ataques tipográficos ao ablatar seletivamente circuitos de atenção específicos, melhorando significativamente a robustez sem comprometer a precisão padrão.

Lorenz Hufe, Constantin Venhoff, Erblina Purelku + 3 more2026-02-27🤖 cs.AI

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

Este artigo apresenta um método de construção de dataset autoadaptativo e orientado por imagens para cenários de segurança multimodal do mundo real, gerando automaticamente 35 mil pares imagem-texto com respostas de orientação e introduzindo uma métrica padronizada para avaliar a eficácia desses conjuntos de dados.

Jingen Qu, Lijun Li, Bo Zhang + 2 more2026-02-27💬 cs.CL

Loc $^2$ : Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching

O artigo apresenta o Loc $^2$ , um método interpretável e de alta precisão para localização cruzada entre vistas que estima a pose de imagens de solo a partir de imagens aéreas, combinando correspondências de características locais com projeção de profundidade monoculular e alinhamento Procrustes, sem necessidade de anotações em nível de pixel.

Zimin Xia, Chenghao Xu, Alexandre Alahi2026-02-27💻 cs

ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

Este artigo propõe o framework ST-GS, que utiliza uma estratégia de agregação espacial guiada e um esquema de fusão temporal consciente da geometria para superar as limitações de interação espacial e consistência temporal nos métodos atuais de predição de ocupação 3D baseada em Gaussiana, alcançando desempenho superior e maior coerência temporal no benchmark nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-02-27💻 cs

Visual Instruction Pretraining for Domain-Specific Foundation Models

Este artigo apresenta o Visual Instruction Pretraining (ViTP), uma nova abordagem que integra raciocínio e percepção através de um modelo de linguagem visual pré-treinado com instruções visuais específicas de domínio, demonstrando desempenho superior em tarefas de sensoriamento remoto e imagem médica.

Yuxuan Li, Yicheng Zhang, Wenhao Tang + 4 more2026-02-27💻 cs

PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

O artigo apresenta o PartSAM, o primeiro modelo de segmentação de partes em 3D treinado nativamente em grande escala com dados 3D, que supera as limitações das abordagens baseadas em transferência 2D ao oferecer uma compreensão geométrica intrínseca e capacidades emergentes de decomposição de formas em estruturas superficiais e internas.

Zhe Zhu, Le Wan, Rui Xu + 6 more2026-02-27💻 cs

Secure and reversible face anonymization with diffusion models

Este artigo apresenta o primeiro framework baseado em modelos de difusão para anonimização facial reversível e segura, que utiliza condicionamento por chave secreta para garantir a recuperação exata da identidade apenas por partes autorizadas, mantendo a qualidade visual e a utilidade para tarefas de visão computacional.

Pol Labarbarie, Vincent Itier, William Puech2026-02-27🤖 cs.LG

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

Este artigo propõe modelos de difusão assíncronos que atribuem etapas temporais distintas a diferentes pixels, permitindo que as regiões relacionadas ao prompt se beneficiem de um contexto mais claro e, consequentemente, melhorem significativamente o alinhamento entre texto e imagem.

Zijing Hu, Yunze Tong, Fengda Zhang + 3 more2026-02-27💻 cs

Detection and Measurement of Hailstones with Multimodal Large Language Models

Este estudo demonstra que modelos de linguagem grandes multimodais pré-treinados, sem necessidade de ajuste fino, podem detectar e medir com precisão o diâmetro de granizo a partir de imagens de redes sociais, superando abordagens de prompt único ao utilizar dicas de referência e oferecendo uma ferramenta complementar valiosa para a avaliação rápida de eventos climáticos severos.

Moritz Alker, David C. Schedl, Andreas Stöckl2026-02-27🤖 cs.AI

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

O artigo apresenta o FlowRVS, um novo framework que reformula a segmentação de objetos em vídeo referenciada por linguagem como um problema de fluxo contínuo, aprendendo uma deformação direta guiada por texto da representação do vídeo para a máscara alvo, superando as limitações de pipelines em cascata e alcançando resultados state-of-the-art em benchmarks principais.

Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li + 6 more2026-02-27💻 cs

G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior

O artigo G4Splat propõe um método de Splatting Gaussiano guiado por geometria que utiliza prioris generativos e estruturas planares para superar as limitações de consistência e qualidade na reconstrução 3D, permitindo a geração precisa de cenas completas e coerentes a partir de entradas de uma única vista ou vídeos não calibrados.

Junfeng Ni, Yixin Chen, Zhifei Yang + 4 more2026-02-27💻 cs

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Este trabalho apresenta o PoSh, uma métrica que utiliza grafos de cena para orientar modelos de linguagem como juízes na avaliação de descrições detalhadas de imagens, e valida sua eficácia através do novo conjunto de dados DOCENT, demonstrando maior correlação com julgamentos humanos e robustez em comparação com métodos existentes.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford + 7 more2026-02-27💬 cs.CL

Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

Este estudo demonstra que o uso de aprendizado auto-supervisionado com a estratégia "Bootstrap Your Own Latent" em imagens aéreas não rotuladas permite realizar classificação de cobertura do solo com resolução de 1 metro em escala estadual, alcançando alta precisão com apenas 1.000 amostras de treinamento rotuladas.

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

Q $^2$ : Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

O artigo apresenta o Q $^2$ , um framework inovador que resolve o desequilíbrio de gradientes em tarefas visuais complexas sob quantização de baixo bit através de um mecanismo de balanceamento dinâmico e alinhamento de atenção, resultando em ganhos significativos de desempenho sem sobrecarga na inferência.

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

Este artigo apresenta o USF-Net, uma rede unificada de fusão espaciotemporal que combina convoluções adaptativas de grandes kernels e mecanismos de atenção de baixa complexidade para superar as limitações de métodos existentes na extrapolação de sequências de imagens de nuvens para sistemas fotovoltaicos, validada por meio de experimentos no novo conjunto de dados ASI-CIS.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

Este artigo apresenta o benchmark RETINA e o modelo MIMIR para superar as "atalhos visuais" que comprometem os sistemas atuais de Resposta Visual a Perguntas Baseadas em Conhecimento Multimodal, demonstrando que a incorporação de imagens de entidades relacionadas melhora significativamente a precisão ao forçar uma compreensão mais profunda das relações contextuais.

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

O artigo apresenta o MedSegLatDiff, um framework de difusão em espaço latente que combina um VAE com um modelo de difusão latente para realizar segmentação de imagens médicas eficiente e incerta, gerando múltiplos resultados plausíveis e mapas de confiança com desempenho superior em diversos conjuntos de dados clínicos.

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

O artigo apresenta o ClimaDrive, um framework de geração de imagens guiado por semântica que cria dados sintéticos realistas e diversificados em relação ao clima, e o utiliza para construir o benchmark ClimaOoD, demonstrando que o treinamento com esses dados melhora significativamente a robustez e a generalização de modelos de segmentação de anomalias para direção autônoma.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

O artigo apresenta o VLM-Pruner, um algoritmo de poda de tokens sem treinamento que equilibra redundância e esparsidade espacial por meio de um paradigma centrífugo e de um critério de bufferização, resultando em uma aceleração eficiente da inferência em modelos de visão e linguagem sem comprometer a precisão.

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni + 4 more2026-02-27🤖 cs.LG

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

O artigo apresenta o TIMAR, um modelo causal de geração de dinâmicas de cabeça conversacional em 3D que trata a interação como contextos de áudio e vídeo intercalados por turno, superando as limitações de frameworks existentes ao melhorar significativamente a coerência temporal e a expressividade em avatares interativos.

Junjie Chen, Fei Wang, Zhihao Huang + 5 more2026-02-27💻 cs

← Anterior Próximo →

cs.CV