MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

O artigo apresenta o MatPedia, um modelo generativo fundamental que utiliza uma representação conjunta RGB-PBR e arquiteturas de difusão de vídeo para unificar a síntese de materiais de alta fidelidade, permitindo a geração de texturas físicas realistas a partir de texto ou imagens e a decomposição intrínseca em uma única arquitetura treinada em um grande corpus híbrido.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Este trabalho apresenta o Corretor de Langevin Consistente com Medição (MCLC), um módulo de estabilização teoricamente fundamentado que resolve a instabilidade de solucionadores de problemas inversos baseados em Modelos de Difusão Latente ao alinhar a dinâmica do solucionador com as dinâmicas reversas aprendidas, superando as limitações das abordagens anteriores que dependem de suposições de variedades lineares.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Este estudo apresenta um pipeline automatizado de ponta a ponta para a identificação de fraturas na coluna cervical que utiliza projeções 2D otimizadas para reconstruir volumes 3D aproximados, alcançando desempenho diagnóstico comparável ao de radiologistas especialistas enquanto reduz a dimensionalidade das etapas intermediárias.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

O artigo descreve a Primeira Competição Internacional StepUP de Reconhecimento Biométrico de Passos, que utilizou o novo conjunto de dados StepUP-P150 para avaliar modelos de aprendizado profundo entre 23 equipes, destacando que, embora a melhor solução tenha alcançado uma taxa de erro de 10,77%, a generalização para calçados desconhecidos permanece um desafio crítico.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

O artigo propõe o CASG, uma estrutura de segurança sem treinamento que resolve conflitos entre múltiplas categorias de conteúdo nocivo em modelos de difusão texto-para-imagem, identificando dinamicamente a categoria de risco predominante e aplicando direções de segurança específicas para reduzir significativamente a taxa de geração de conteúdo prejudicial.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

O artigo apresenta o Skullptor, um método híbrido que combina a previsão de normais de superfície multi-visão com otimização de renderização inversa para reconstruir geometrias de cabeças 3D de alta fidelidade em segundos, superando as limitações de detalhe dos modelos de imagem única e os custos computacionais e de captura das abordagens tradicionais de fotogrametria densa.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

O artigo propõe o MoMKD, um novo framework de destilação de conhecimento que utiliza uma memória atualizada por momento e o desacoplamento de gradientes para superar as limitações de estabilidade e generalização dos métodos atuais, permitindo inferência precisa em patologia computacional baseada apenas em histologia ao transferir supervisão genômica escassa.

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Este artigo propõe uma abordagem dinâmica de mapeamento para Reconhecimento Visual de Lugares (VPR) que seleciona automaticamente a densidade ideal do mapa com base em pares de travessias de referência, garantindo que requisitos locais de desempenho específicos, como o nível de Recall@1 e a Taxa de Conquista de Recall (RAR), sejam atendidos em uma proporção definida do ambiente operacional, evitando assim a superdensificação desnecessária.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

O artigo propõe o Spatial Credit Redistribution (SCR), um método de inferência sem treinamento que mitiga as alucinações em Modelos Visão-Linguagem ao redistribuir a atenção espacial dos patches dominantes para vizinhanças contextuais, reduzindo significativamente erros de geração em múltiplos benchmarks sem comprometer a qualidade do texto ou a latência.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

O artigo apresenta o EvalMVX, um novo conjunto de dados real-world com 25 objetos e 8.500 imagens capturadas sob diversas condições de iluminação e visão, projetado para avaliar e comparar quantitativamente métodos unificados de reconstrução 3D neural que utilizam estereoscopia multivista, fotometria multivista e forma a partir da polarização.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs