cs.CV artigos | Gist.Science

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

O artigo apresenta o NeuCLIP, um novo framework de otimização que reformula a perda de contraste em CLIP utilizando análise convexa e variacional para substituir estimadores de normalização por uma rede neural compacta, permitindo um treinamento mais eficiente e preciso em larga escala sem depender de lotes massivos.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

O artigo "Scriboora" apresenta um pipeline unificado para prever poses humanas, identifica problemas de reprodutibilidade, demonstra que modelos de linguagem adaptados superam o estado da arte e avalia a robustez dos sistemas frente a ruídos de estimativa de pose, propondo técnicas de ajuste fino para mitigar a degradação de desempenho.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

O artigo apresenta o MatPedia, um modelo generativo fundamental que utiliza uma representação conjunta RGB-PBR e arquiteturas de difusão de vídeo para unificar a síntese de materiais de alta fidelidade, permitindo a geração de texturas físicas realistas a partir de texto ou imagens e a decomposição intrínseca em uma única arquitetura treinada em um grande corpus híbrido.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

O artigo apresenta o VideoChat-M1, um sistema inovador de agentes múltiplos que utiliza Planejamento de Políticas Colaborativas e Aprendizado por Reforço Multiagente para otimizar dinamicamente a invocação de ferramentas e a compreensão de vídeos, alcançando desempenho superior ao estado da arte em diversos benchmarks.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

O artigo apresenta o UniLight, uma representação unificada de iluminação em um espaço latente comum que alinha contrastivamente múltiplas modalidades (texto, imagens, irradiância e mapas de ambiente) para permitir transferência cruzada e manipulação flexível em tarefas como recuperação, geração e controle de iluminação em síntese de imagens.

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Este trabalho apresenta o Corretor de Langevin Consistente com Medição (MCLC), um módulo de estabilização teoricamente fundamentado que resolve a instabilidade de solucionadores de problemas inversos baseados em Modelos de Difusão Latente ao alinhar a dinâmica do solucionador com as dinâmicas reversas aprendidas, superando as limitações das abordagens anteriores que dependem de suposições de variedades lineares.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

O artigo apresenta o WCC-Net, um framework de difusão 3D que utiliza priores estruturais baseados em wavelets para melhorar a remoção de ruído em imagens de PET de corpo inteiro de baixa dose, superando métodos existentes em qualidade de imagem e consistência anatômica.

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Este estudo apresenta um pipeline automatizado de ponta a ponta para a identificação de fraturas na coluna cervical que utiliza projeções 2D otimizadas para reconstruir volumes 3D aproximados, alcançando desempenho diagnóstico comparável ao de radiologistas especialistas enquanto reduz a dimensionalidade das etapas intermediárias.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Este trabalho propõe o VRFT-Aug, um framework de ajuste fino por reforço visual para o domínio médico que, ao integrar estratégias de aprimoramento de percepção e raciocínio, supera os métodos tradicionais e oferece diretrizes práticas para o desenvolvimento de modelos confiáveis em aplicações de alto risco.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

O artigo descreve a Primeira Competição Internacional StepUP de Reconhecimento Biométrico de Passos, que utilizou o novo conjunto de dados StepUP-P150 para avaliar modelos de aprendizado profundo entre 23 equipes, destacando que, embora a melhor solução tenha alcançado uma taxa de erro de 10,77%, a generalização para calçados desconhecidos permanece um desafio crítico.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

O VidEoMT é um modelo de segmentação de vídeo baseado exclusivamente em um codificador ViT que elimina a necessidade de módulos de rastreamento complexos, utilizando um mecanismo leve de propagação e fusão de consultas para alcançar alta precisão e velocidade (até 160 FPS) com uma arquitetura simplificada.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

O artigo propõe o CASG, uma estrutura de segurança sem treinamento que resolve conflitos entre múltiplas categorias de conteúdo nocivo em modelos de difusão texto-para-imagem, identificando dinamicamente a categoria de risco predominante e aplicando direções de segurança específicas para reduzir significativamente a taxa de geração de conteúdo prejudicial.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

O artigo apresenta o Skullptor, um método híbrido que combina a previsão de normais de superfície multi-visão com otimização de renderização inversa para reconstruir geometrias de cabeças 3D de alta fidelidade em segundos, superando as limitações de detalhe dos modelos de imagem única e os custos computacionais e de captura das abordagens tradicionais de fotogrametria densa.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

O artigo propõe o MoMKD, um novo framework de destilação de conhecimento que utiliza uma memória atualizada por momento e o desacoplamento de gradientes para superar as limitações de estabilidade e generalização dos métodos atuais, permitindo inferência precisa em patologia computacional baseada apenas em histologia ao transferir supervisão genômica escassa.

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Este artigo propõe uma abordagem dinâmica de mapeamento para Reconhecimento Visual de Lugares (VPR) que seleciona automaticamente a densidade ideal do mapa com base em pares de travessias de referência, garantindo que requisitos locais de desempenho específicos, como o nível de Recall@1 e a Taxa de Conquista de Recall (RAR), sejam atendidos em uma proporção definida do ambiente operacional, evitando assim a superdensificação desnecessária.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

O artigo propõe o Spatial Credit Redistribution (SCR), um método de inferência sem treinamento que mitiga as alucinações em Modelos Visão-Linguagem ao redistribuir a atenção espacial dos patches dominantes para vizinhanças contextuais, reduzindo significativamente erros de geração em múltiplos benchmarks sem comprometer a qualidade do texto ou a latência.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

O artigo apresenta o EvalMVX, um novo conjunto de dados real-world com 25 objetos e 8.500 imagens capturadas sob diversas condições de iluminação e visão, projetado para avaliar e comparar quantitativamente métodos unificados de reconstrução 3D neural que utilizam estereoscopia multivista, fotometria multivista e forma a partir da polarização.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Este trabalho propõe melhorias no framework MambaBDA para avaliação robusta de danos em edifícios, incorporando mecanismos de atenção, perda focal e alinhamento espacial que resultam em ganhos significativos de desempenho, especialmente na generalização para desastres não vistos.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Este trabalho apresenta um estudo unificado que examina sistematicamente a interação entre o parâmetro de temperatura e outros componentes de treinamento em destilação de conhecimento, identificando situações críticas que impactam sua seleção e oferecendo diretrizes práticas para otimizar o desempenho do modelo estudante.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

O artigo apresenta o ITO, um framework que supera as limitações de representações modais parciais em pré-treinamento imagem-texto ao combinar alinhamento múltiplo e fusão durante o treinamento (que é descartada na inferência), resultando em desempenho superior e maior estabilidade em diversas tarefas multimodais.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

← Anterior Próximo →