cs.CV artigos | Gist.Science

Effective and Efficient Masked Image Generation Models

O artigo apresenta o eMIGM, um modelo unificado de geração de imagens mascarada que, ao explorar fatores-chave de treinamento e amostragem, alcança desempenho superior ou comparável aos modelos de difusão contínua e autoregressivos mais avançados no ImageNet, exigindo significativamente menos avaliações de função (NFEs).

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

O SPEED é um método eficiente de apagamento de conceitos em modelos de difusão texto-para-imagem que edita diretamente os parâmetros do modelo para encontrar um espaço nulo, permitindo a remoção precisa de múltiplos conceitos sem degradar a geração de conceitos não-alvo, superando as limitações de tempo e qualidade dos métodos existentes.

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Este trabalho apresenta um novo framework de avaliação multiobjetivo, agnóstico ao modelo e disponível publicamente, que permite analisar sistematicamente as compensações entre utilidade e justiça em sistemas de aprendizado de máquina, com foco especial na aplicação em diagnósticos de imagens médicas para mitigar disparidades demográficas sem comprometer o desempenho.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

Os autores apresentam um modelo de difusão de vídeo consciente do alvo que gera vídeos a partir de uma imagem inicial, permitindo que um ator execute ações específicas sobre objetos definidos por máscaras de segmentação, utilizando um token especial e uma perda de atenção cruzada para garantir interações humano-objeto precisas e plausíveis.

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

O artigo apresenta o AdaRank, um novo framework de fusão de modelos que utiliza a minimização de entropia para adaptarivamente podar componentes singulares interferentes durante o teste, alcançando desempenho superior ao estado da arte ao reduzir a lacuna de performance entre modelos ajustados para quase 1%.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

Este artigo apresenta uma abordagem que utiliza "conceitos analíticos" baseados em simbolismo matemático para conectar o conhecimento de senso comum inferido por Modelos de Linguagem Multimodais (MLLMs) ao mundo físico, permitindo que robôs realizem manipulação generalizada e precisa de objetos articulados.

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

O artigo apresenta o OSDM-MReg, um novo framework de registro de imagens multiespectrais que utiliza um modelo de difusão de um único passo para traduzir imagens entre domínios modais e um network de registro multiescala para superar as diferenças radiométricas não lineares e alcançar alta precisão de alinhamento.

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Este artigo apresenta o VR-FuseNet, um modelo híbrido de aprendizado profundo que combina VGG19 e ResNet50V2 em um conjunto de dados heterogêneo e balanceado para classificar a retinopatia diabética com 91,824% de precisão, incorporando técnicas de IA explicável para garantir a interpretabilidade clínica das previsões.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

O artigo defende que os modelos de visão computacional aplicados à ecologia e biologia devem ser avaliados por meio de métricas específicas do contexto de uso final, demonstrando, através de estudos de caso com chimpanzés e pombos, que o alto desempenho em métricas tradicionais de aprendizado de máquina não garante a precisão necessária para inferências biológicas e ecológicas.

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Este trabalho propõe uma solução baseada em IA explicável para atribuir com precisão e eficiência as distâncias de Wasserstein a componentes específicos dos dados, como subgrupos, características ou subespaços interpretáveis, facilitando a compreensão dos fatores que contribuem para essas métricas em cenários de deslocamento de dados e fenômenos de transporte.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

O artigo propõe o framework DURA, que integra um Seletor de Características Chave e uma nova função de perda para modelar a incerteza do ruído e ajustar a dificuldade das amostras negativas, melhorando assim a robustez e o desempenho na busca de pessoas baseada em texto em cenários com correspondências ruidosas.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Este estudo apresenta a primeira análise teórica demonstrando que transformadores pré-treinados adversarialmente podem atuar como modelos fundamentais universalmente robustos, capazes de se adaptar a tarefas não vistas por meio de aprendizado em contexto a partir de exemplos limpos, sem necessidade de treinamento adversarial adicional.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

O artigo apresenta a Distância de Chamfer Flexível-Ponderada (FCD), uma função objetivo aprimorada que, ao empregar uma estratégia de ponderação assimétrica para priorizar a integridade estrutural global, supera as limitações da Distância de Chamfer padrão e reduz significativamente defeitos como aglomeração de pontos e estruturas incompletas em tarefas de conclusão de nuvens de pontos.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

O DeepEyes é um modelo de linguagem visual que utiliza aprendizado por reforço para aprender a "pensar com imagens" de forma nativa, integrando ativamente a percepção visual ao raciocínio sem necessidade de dados de treinamento pré-coletados, resultando em melhorias significativas em tarefas de percepção, raciocínio e redução de alucinações.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

O artigo apresenta o GradPCA, um método de detecção de dados fora de distribuição (OOD) que aproveita a estrutura de baixo posto dos gradientes induzida pelo alinhamento do Kernel Tangente Neural (NTK) para alcançar desempenho superior e consistente em benchmarks de classificação de imagens, apoiado por uma análise teórica sobre as propriedades do espaço de características.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

Este artigo apresenta o DTR, uma defesa inovadora em tempo de inferência que mitiga ataques de jailbreak multimodal em modelos visão-linguagem ao otimizar dinamicamente os pesos dos tokens visuais nos caches de chave-valor, melhorando a robustez sem comprometer o desempenho em tarefas benignas.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

O artigo apresenta o Seek-CAD, um método pioneiro de geração de modelos CAD paramétricos 3D que utiliza o modelo de linguagem aberto DeepSeek-R1 com um mecanismo de auto-refinamento baseado em feedback visual e raciocínio encadeado, dispensando o treinamento e validando sua eficácia através de um novo dataset estruturado.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

Este artigo propõe funções de kernel probabilísticas baseadas em projeções determinísticas e ângulos de referência para testes de ângulo em espaços de alta dimensão, demonstrando superioridade teórica e experimental em relação aos métodos gaussianos e alcançando um aumento de 2,5 a 3 vezes na taxa de consultas por segundo (QPS) em comparação com o algoritmo HNSW para busca aproximada de vizinhos mais próximos.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

O artigo apresenta o Point-MoE, uma arquitetura baseada em Mistura de Especialistas que permite o treinamento conjunto em larga escala de múltiplos conjuntos de dados heterogêneos para segmentação semântica 3D, superando métodos anteriores ao aprender a selecionar especialistas especializados sem a necessidade de rótulos de dataset durante o treinamento ou inferência.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

O artigo apresenta o SenseFlow, uma abordagem que supera as limitações de convergência da distilação de correspondência de distribuição em modelos de texto para imagem baseados em fluxo de grande escala, como SD 3.5 e FLUX, por meio da introdução de alinhamento implícito de distribuição e orientação intra-segmento, resultando em desempenho superior tanto para modelos de difusão quanto de correspondência de fluxo.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

← Anterior Próximo →