cs.CV artigos | Gist.Science

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

O artigo propõe o LTA (Latent Transfer Attack), um método de ataque adversarial que otimiza perturbações no espaço latente de um VAE do Stable Diffusion em vez do espaço de pixels, resultando em exemplos mais robustos, de baixa frequência e com maior capacidade de transferência entre diferentes arquiteturas de modelos de visão computacional.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

O artigo propõe o WMoE-CLIP, um método de aprendizado de prompts para detecção de anomalias zero-shot que combina um autoencoder variacional, decomposição por wavelets e um módulo de mistura de especialistas para superar as limitações de abordagens existentes na captura de semântica complexa e anomalias sutis.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

O artigo apresenta o P-SLCR, uma estratégia inovadora de segmentação semântica não supervisionada para nuvens de pontos que utiliza aprendizado de estrutura de protótipos e raciocínio consistente para alcançar desempenho superior ao de métodos supervisionados clássicos em diversos conjuntos de dados.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Este estudo avalia a capacidade do ChatGPT de criar pastiches de obras de arte contemporâneas, revelando através da análise de doze artistas que, embora existam similaridades visuais e texturais, as gerações de IA carecem de dimensão, contexto e intenção artística, exigindo assim uma avaliação multimétrica em vez de métricas isoladas de estilo.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

O artigo apresenta o WorldCache, um framework de cache heterogêneo que acelera modelos de mundo baseados em difusão em até 3,7 vezes mantendo 98% da qualidade da simulação, ao superar desafios de heterogeneidade de tokens e dinâmicas temporais não uniformes através de predição guiada por curvatura e pulo adaptativo priorizando comportamentos caóticos.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

O artigo apresenta o K-MaT, um framework de aprendizado de prompts que utiliza transporte ótimo para alinhar representações de modelos de visão-linguagem biomédica de alta resolução a modalidades de baixa resolução sem necessidade de dados de treinamento, alcançando resultados superiores e mitigando o esquecimento catastrófico em tarefas de imagem médica.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

O artigo apresenta o DC-DiT, um modelo de difusão que utiliza um mecanismo de "chunking" dinâmico e aprendido para adaptar a quantidade de tokens processados conforme a complexidade visual da imagem e o estágio da difusão, melhorando a eficiência computacional e a qualidade da geração sem necessidade de supervisão explícita.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

O artigo apresenta o LATO, uma nova representação latente que preserva a topologia e permite a síntese escalável de malhas 3D explícitas por meio de correspondência de fluxo, utilizando um VAE baseado em voxels esparsos para codificar campos de deslocamento de vértices e um mecanismo dedicado para prever a conectividade de arestas, resultando em geração eficiente de geometrias complexas com topologia bem definida sem a necessidade de extração de isosuperfícies.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Este artigo apresenta métodos baseados em visão computacional, incluindo modelos lineares e redes neurais profundas, que utilizam um sistema de dupla câmera (BIODISCOVER) para estimar com precisão a biomassa de invertebrados a partir de imagens, eliminando a necessidade de pesagem manual destrutiva e permitindo a escalabilidade do monitoramento da biodiversidade.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Este artigo apresenta o OralGPT-Plus, um modelo de linguagem visual agêntico que utiliza aprendizado por reforço e um novo conjunto de dados chamado DentalProbe para realizar análises iterativas e simétricas de radiografias panorâmicas dentais, superando os métodos existentes em precisão diagnóstica e confiabilidade clínica.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

O artigo apresenta o Rewis3d, um framework que utiliza a reconstrução 3D feed-forward como sinal de supervisão auxiliar para melhorar significativamente a segmentação semântica fraca supervisionada em imagens 2D, propagando anotações esparsas através da consistência geométrica e alcançando desempenho superior sem necessidade de rótulos adicionais.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

O artigo apresenta o MoEMambaMIL, um framework inovador baseado em Modelos de Espaço de Estado (SSM) e Mistura de Especialistas (MoE) que supera as limitações das abordagens atuais de Aprendizado de Múltiplas Instâncias ao organizar a estrutura hierárquica de imagens de lâminas inteiras (WSI) em sequências espaciais estruturadas, resultando em desempenho superior em nove tarefas de análise patológica.

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

O artigo apresenta o CHMv2, um mapa global de altura de dossel com resolução de um metro que utiliza o modelo de estimativa de profundidade DINOv3 treinado com dados de LiDAR aéreo e imagens ópticas de satélite, oferecendo uma precisão significativamente superior e melhor representação de estruturas florestais em comparação com produtos existentes.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Este artigo apresenta um quadro de treinamento consciente de grupos de prompts que, ao organizar descrições semanticamente relacionadas e aplicar regularização guiada por qualidade e restrições de consistência, melhora a robustez e a generalização da segmentação de núcleos guiada por texto em patologia computacional sem alterar a arquitetura ou a inferência do modelo.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

O artigo apresenta o REACT++, um novo modelo state-of-the-art para Geração de Grafos de Cena em tempo real que equilibra latência e poder representacional, alcançando a maior velocidade de inferência entre os modelos existentes enquanto melhora a precisão na previsão de relações sem sacrificar a detecção de objetos.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Este artigo propõe um framework de resolução de quebra-cabeças com intervenção humana que combina um solucionador automático com orientação interativa para reconstruir com maior precisão e eficiência fragmentos de patrimônio cultural em escala real, superando as limitações de métodos puramente automáticos ou manuais.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

O artigo apresenta o DiffInf, um framework baseado em difusão guiada por influência que identifica e corrige automaticamente inconsistências de anotação em dados faciais, melhorando a classificação de atributos sem descartar amostras ou sacrificar a cobertura da distribuição.

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

O artigo demonstra que a organização figura-fundo no modelo Vision Transformer BEiT, que favorece naturalmente a conclusão convexa, é resolvida abruptamente nas camadas finais e pode ser alterada para permitir conclusões côncavas através da modulação de uma única cabeça de atenção específica (L0H9).

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

O artigo apresenta o PSIVG, um novo quadro de trabalho que integra um simulador físico em um processo de geração de vídeo por difusão para corrigir inconsistências de movimento e garantir a aderência às leis físicas, ao mesmo tempo em que preserva a qualidade visual e a diversidade dos vídeos gerados.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

Este artigo propõe um método não invasivo de visão estéreo consciente da refração, utilizando a rede YOLOv11-Pose para detectar pontos-chave anatômicos e estimar o comprimento de peixes de aquário com precisão, superando as distorções ópticas causadas pelas interfaces ar-vidro-água.

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

← Anterior Próximo →