cs.CV artigos | Gist.Science

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

O artigo propõe o "Omnivorous Vision Encoder", um novo quadro de aprendizado que alinha representações de diferentes modalidades (como RGB e profundidade) em um espaço de características comum, preservando a semântica discriminativa de modelos fundacionais como o DINOv2 através de um processo de distilação e alinhamento cruzado.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Este artigo apresenta o primeiro framework automatizado de auditoria multimodal para descoberta de fatias, projetado para detectar e explicar falhas sistemáticas em classificadores de imagens médicas, demonstrando sua eficácia no conjunto de dados MIMIC-CXR-JPG.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

O artigo apresenta o UMPIRE, uma nova estrutura de quantificação de incerteza sem treinamento para Modelos de Linguagem Multimodal (MLLMs) que calcula o volume semântico ajustado à incoerência das respostas, superando as métricas existentes na detecção de erros e calibração de incerteza em diversas modalidades e cenários desafiadores.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

O artigo apresenta o SenCache, um método de aceleração para modelos de difusão que utiliza uma política de cache dinâmica e sensível a perturbações para reduzir o custo computacional mantendo a qualidade visual superior em comparação com abordagens heurísticas existentes.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

O artigo apresenta o MuViT, uma arquitetura de Transformer que integra observações de múltiplas resoluções em um sistema de coordenadas globais compartilhado, demonstrando melhorias consistentes em tarefas de análise de imagens de microscopia ao combinar contexto de campo amplo com detalhes de alta resolução.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

O artigo apresenta um novo método que aprimora a compreensão espacial em modelos de geração de imagens, criando o conjunto de dados SpatialReward-Dataset e o modelo de recompensa SpatialScore para avaliar e otimizar, via aprendizado por reforço online, a precisão das relações espaciais complexas descritas em prompts de texto.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

O artigo propõe o GTASR, um paradigma de treinamento leve baseado em Consistency Models que supera as limitações de deriva e desconexão geométrica em super-resolução de imagens do mundo real através de alinhamento de trajetória e retificação estrutural, permitindo geração de alta qualidade em um único passo com baixa latência.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

Este trabalho apresenta a Compacção de Variedade Latente (LMC), uma estrutura de aprendizado de representação não supervisionada que normaliza imagens de histopatologia ao comprimir compactamente variedades latentes induzidas por corantes, permitindo a generalização eficaz para dados de domínio alvo não vistos e superando métodos de normalização existentes em tarefas de classificação e detecção.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

O artigo propõe o modelo HAL (Hierarchical Action Learning), que utiliza um processo de geração de dados causal hierárquico e um transformador piramidal para explorar as diferentes escalas temporais entre variáveis visuais e de ação, permitindo a segmentação fraca supervisionada de ações com variáveis latentes estritamente identificáveis e desempenho superior em benchmarks.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

O artigo propõe um novo paradigma de treinamento que combina busca de modo e busca de média por meio de um Decoupled Diffusion Transformer, permitindo a geração rápida e coerente de vídeos longos com alta fidelidade local ao alinhar janelas deslizantes a um modelo professor de vídeos curtos enquanto aprende estruturas narrativas de longo prazo a partir de dados limitados.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

Este artigo apresenta o BSDM, um modelo de difusão inovador para detecção de anomalias em imagens hiperespectrais que aprende distribuições de fundo latentes e suprime ruídos complexos sem a necessidade de dados rotulados, garantindo alta generalização entre diferentes domínios.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

O artigo apresenta o StableMaterials, uma abordagem inovadora que combina aprendizado semi-supervisionado com modelos de difusão latente para gerar materiais PBR fotorealistas, diversificados e de alta resolução, reduzindo a dependência de dados anotados e permitindo a criação de novas texturas não presentes nos conjuntos de treinamento originais.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

O artigo apresenta o SGIFormer, um novo método para segmentação de instâncias em nuvens de pontos 3D que utiliza uma inicialização de consultas guiada por semântica e um decodificador transformador intercalado aprimorado geometricamente para alcançar desempenho de última geração em grandes cenas com equilíbrio entre precisão e eficiência.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

Este artigo propõe um método de detecção de deepfakes em cenário aberto e eficiente em parâmetros, que utiliza uma mistura de estilos de falsificação e módulos leves em uma arquitetura ViT pré-treinada para melhorar a generalização em domínios desconhecidos com custos computacionais reduzidos.

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

Este artigo apresenta um framework de aprendizado de conceito "verdadeiro" one-shot baseado em protótipos gaussianos abstratos e modelos de mistura gaussiana, que, sem depender de pré-treinamento massivo, realiza simultaneamente tarefas de classificação e geração de novas variantes visuais com qualidade indistinguível da humana.

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

O artigo apresenta o SplatSDF, uma nova arquitetura que acelera significativamente a convergência e melhora a precisão geométrica do SDF-NeRF ao fundir diretamente embeddings de 3D Gaussian Splats no nível da arquitetura, superando abordagens anteriores baseadas em perda de consistência e viabilizando sua aplicação em sistemas robóticos práticos.

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

O artigo apresenta o DGGS, um novo quadro de trabalho que resolve o desafio de esmaltação gaussiana 3D generalizável livre de distrações, mitigando inconsistências e instabilidades de treinamento através de um módulo de previsão de máscaras agnóstico à cena e de um framework de inferência em duas etapas com seleção e poda de distrações para reconstrução robusta em cenas não vistas.

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Este artigo propõe um framework que permite que modelos de visão e linguagem operem em cenários de mundo aberto, identificando e aprendendo incrementalmente objetos desconhecidos por meio das técnicas OWEL e MSCAL, superando as limitações da detecção de vocabulário aberto tradicional e alcançando desempenho superior em benchmarks de direção autônoma.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

Este artigo propõe um método inovador para animar esboços desenhados à mão a partir de prompts de texto, utilizando um modelo de difusão texto-para-vídeo pré-treinado combinado com regularização de comprimento-área para consistência temporal e uma perda ARAP para preservar a rigidez e a topologia do desenho, superando assim o estado da arte atual.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

O artigo apresenta o PPT, um framework de pré-treinamento escalável que utiliza trajetórias pseudo-rotuladas geradas automaticamente por detectores e rastreadores 3D para melhorar a generalização e o desempenho em previsão de movimento, especialmente em cenários com poucos dados rotulados.

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

← Anterior Próximo →