cs.CV artigos | Gist.Science

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Este artigo apresenta o MOO, um grande conjunto de dados sintético de reidentificação de gado com 128.000 imagens anotadas de 128 pontos de vista, que permite analisar o impacto da elevação na generalização de modelos e demonstrar ganhos de desempenho ao transferir conhecimentos geométricos sintéticos para aplicações reais.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

O artigo apresenta o SPRINT, o primeiro framework de Aprendizado Incremental de Poucos Exemplos (FSCIL) projetado especificamente para dados tabulares, que supera os métodos existentes ao aproveitar a abundância de dados não rotulados e o baixo custo de armazenamento para alcançar robustez e alta precisão em diversas aplicações do mundo real.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

O artigo apresenta uma estrutura escalável para avaliar o realismo de aumentações sintéticas em imagens, demonstrando que métodos de IA generativa superam significativamente as abordagens baseadas em regras na simulação de condições ambientais adversas, como neblina, chuva, neve e noite, alcançando desempenho comparável ou superior ao de imagens reais.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

O artigo apresenta o Pointer-CAD, um novo framework baseado em LLMs para geração de modelos CAD que unifica representações B-rep e sequências de comandos por meio de ponteiros para seleção de entidades geométricas, superando as limitações de edição complexa e erros topológicos de métodos anteriores e alcançando alta precisão graças a um conjunto de dados de 575 mil modelos anotados.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

O ArtHOI é um framework zero-shot pioneiro que sintetiza interações humano-objeto articuladas e fisicamente plausíveis ao reformular o problema como uma reconstrução 4D a partir de vídeos gerados por modelos de difusão, superando as limitações de métodos anteriores ao garantir consistência geométrica e contato realista sem supervisão 3D.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Este estudo compara modelos generativos (DDPM, LDM e FM) para a criação de ressonâncias magnéticas cardíacas sintéticas, concluindo que os modelos baseados em difusão, especialmente o DDPM, oferecem o melhor equilíbrio entre fidelidade, utilidade clínica e privacidade em cenários com dados limitados.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

O artigo apresenta o Hold-One-Shot-Out (HOSO), um método simples e livre de validação que aprende a taxa de mistura para adaptadores CLIP usando um conjunto de retenção de uma única amostra, superando significativamente a linha de base CLIP-Adapter em cenários de poucos exemplos sem necessidade de conjuntos de validação adicionais.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Este estudo demonstra que a incorporação de imagens sintéticas geradas por DreamBooth e Stable Diffusion melhora a precisão e a generalização dos modelos de atribuição de autoria de pinturas em cenários com escassez de dados reais.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Este artigo propõe um método eficiente em termos de dados que utiliza um único exemplo por classe e um modelo de linguagem para gerar descrições contrafactuais, permitindo prever com alta precisão a acurácia zero-shot de modelos fundacionais visão-linguagem em domínios sub-representados, como os do Sul Global, sem a necessidade de conjuntos de teste rotulados extensivos.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

O artigo apresenta o RANGER, um novo framework para geração de relatórios de patologia que utiliza uma arquitetura de Mistura de Especialistas (MoE) com gate esparsamente ativado e um módulo de reclassificação adaptativa de recuperação, demonstrando desempenho superior ao estado da arte no conjunto de dados PathText-BRCA ao lidar com a complexidade das imagens de lâminas inteiras.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

O artigo apresenta o FocusGraph, um framework que melhora a resposta a perguntas em vídeos longos egocêntricos ao selecionar frames-chave de forma eficiente através de um seletor baseado em legendas de cena e um método de retenção de fluxo esparsa, alcançando resultados de ponta com menor tempo de inferência.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

O artigo apresenta o Helios, o primeiro modelo de geração de vídeo autoregressivo de 14B parâmetros capaz de produzir vídeos em escala de minutos em tempo real (19,5 FPS) em uma única GPU H100 com alta robustez contra desvios, sem depender de técnicas comuns de aceleração ou heurísticas anti-desvio.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

O artigo apresenta o TaxonRL, uma abordagem de aprendizado por reforço que utiliza recompensas intermediárias para decompor o raciocínio visual em níveis taxonômicos hierárquicos, alcançando desempenho superior ao humano na distinção de espécies visualmente similares e gerando processos decisórios interpretáveis.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

O artigo apresenta o ZipMap, um modelo feed-forward stateful que realiza reconstrução 3D bidirecional em tempo linear com treinamento no teste, alcançando uma velocidade mais de 20 vezes superior aos métodos atuais sem sacrificar a precisão.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

O artigo apresenta o SimpliHuMoN, um modelo baseado em transformadores simples e eficaz que unifica a previsão de trajetória e pose humana, alcançando resultados de ponta em diversas tarefas e conjuntos de dados sem necessidade de modificações específicas para cada tarefa.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Este artigo propõe as "Redes de Fluxo de Pensamento", um mecanismo de auto-correção iterativa inspirado na dialética de Hegel que permite aos modelos gerar sequências de previsões para refinar suas respostas, demonstrando melhorias significativas no desempenho do modelo e na percepção humana em comparação com previsões únicas.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

O artigo apresenta o VQA-MHUG, um novo conjunto de dados de olhar humano multimodal para VQA, e demonstra pela primeira vez que a correlação entre a atenção neural e a humana no texto é um preditor significativo do desempenho do modelo, sugerindo a necessidade de aprimorar os mecanismos de atenção textual nas arquiteturas de visão e linguagem.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

O artigo apresenta o MULAN, a primeira rede que integra atenção humana multimodal (de imagem e texto) em modelos de VQA baseados em transformers, alcançando desempenho state-of-the-art no conjunto de dados VQAv2 com aproximadamente 80% menos parâmetros treináveis que trabalhos anteriores.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Este trabalho demonstra que modelos de visão fundamentais, especialmente o BiomedCLIP, podem ser utilizados como extratores de recursos versáteis e sem necessidade de treinamento adicional para sistemas de recuperação de imagens médicas baseadas em conteúdo, alcançando desempenho comparável a sistemas especializados em um vasto conjunto de dados radiológicos.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

O artigo apresenta o "Implicit-Zoo", um conjunto de dados em larga escala contendo funções implícitas neurais para imagens 2D e cenas 3D, desenvolvido para superar limitações computacionais e de recursos, permitindo avanços em tarefas como classificação de imagens, segmentação semântica e regressão de pose 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

← Anterior Próximo →