cs.CV artigos | Gist.Science

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

O artigo apresenta o C2FMAE, um autoencoder mascarado de coarse-to-fine que resolve a tensão entre aprendizado de semântica global e detalhes locais ao aprender representações visuais hierárquicas através de um decodificador em cascata e um currículo de mascaramento progressivo, resultando em ganhos significativos em tarefas de visão computacional.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

O artigo apresenta o BEACON, um método que supera as limitações de navegação baseada em linguagem em cenários com oclusão ao prever um mapa de calor de affordance em visão de pássaro (BEV) a partir de observações multiview, alcançando uma melhoria significativa de 22,74 pontos percentuais em relação às abordagens de estado da arte baseadas em espaço de imagem.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

O artigo apresenta o ReCoSplat, um modelo feed-forward autoregressivo para síntese de novas visões online que utiliza um módulo Render-and-Compare para compensar erros de pose e uma estratégia híbrida de compressão de cache para permitir a reconstrução eficiente de sequências longas, alcançando desempenho state-of-the-art em diversos cenários.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Este artigo demonstra que, em cenários de dados realistas com características correlacionadas, a superposição em redes neurais pode organizar-se de forma a transformar interferências em efeitos construtivos, gerando agrupamentos semânticos e estruturas cíclicas que não são explicadas pelo modelo tradicional de superposição baseado em características não correlacionadas.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

O artigo apresenta o $\partial\mu$ , uma abordagem de projeto de ponta a ponta baseada em dados para o design de sistemas ópticos, demonstrando sua eficácia na criação de um microscópio de recuperação de fase totalmente óptico que supera métodos existentes e foi validado experimentalmente.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

Este artigo propõe um método de adaptação de domínio para alvos mistos que supera as limitações atuais ao alinhar mutuamente as distribuições categóricas condicionais e os classificadores, alcançando desempenho superior mesmo na ausência de rótulos de domínio e sob desequilíbrio na distribuição de classes.

Pengcheng Xu, Boyu Wang, Charles Ling2026-03-10💻 cs

altiro3D: Scene representation from single image and novel view synthesis

O artigo apresenta o altiro3D, uma biblioteca gratuita que gera experiências 3D realistas e síntese de novas visualizações a partir de uma única imagem ou vídeo plano, utilizando estimativa de profundidade, técnicas de inpainting e um algoritmo rápido para projeção 3D, permitindo a exibição em telas LCD de visão livre.

E. Canessa, L. Tenze2026-03-10💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Este artigo apresenta o PD-REAL, um novo conjunto de dados em larga escala para detecção de anomalias 3D baseado em modelos de Play-Doh, e propõe um método de destilação hierárquica multiescala que integra informações RGB e de profundidade para superar as limitações das abordagens unimodais e melhorar a precisão na detecção de anomalias.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

O artigo propõe a CA-Jaccard, uma nova métrica de distância para re-identificação de pessoas que mitiga o impacto negativo da variação de câmeras na confiabilidade da distância Jaccard ao introduzir vizinhos k-recíprocos e expansão de consulta local sensíveis às câmeras para melhorar a seleção de vizinhos relevantes.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

O artigo apresenta o DivCon, uma abordagem de "dividir e conquistar" que melhora a geração de imagens a partir de texto ao decompor a tarefa em etapas de raciocínio e planejamento visual, permitindo que modelos de linguagem leves superem métodos anteriores na precisão espacial e na qualidade perceptual de cenas complexas.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Esta pesquisa oferece uma revisão abrangente e um benchmark das tecnologias de geração e detecção de deepfakes, analisando métodos de ponta, conjuntos de dados, métricas e desafios futuros em subáreas como troca de rostos, reencenação e edição de atributos faciais.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Este artigo propõe três novos conjuntos de teste desafiadores e de alta qualidade (Hadrian, Eclipse e ND-Twins) para avaliar a robustez de algoritmos de reconhecimento facial em variações de atributos e semelhanças entre indivíduos, superando a necessidade de reduzir artificialmente a qualidade das imagens para obter dificuldades comparáveis às existentes.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artigo investiga a fase de corrupção observada no ajuste fino de poucos exemplos de Modelos de Difusão, identifica sua causa na distribuição de aprendizado restrita e propõe o uso de Redes Neurais Bayesianas para mitigar esse problema, melhorando a fidelidade, qualidade e diversidade das imagens geradas sem custos adicionais de inferência.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

O artigo apresenta o RDM, um modelo de difusão recorrente que utiliza Fluxos Normalizantes para gerar sequências longas e alinhadas ao texto com alta eficiência computacional, evitando o custo de desnoising completo das quadros anteriores.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

O artigo apresenta o PiVOT, um novo mecanismo de prompting visual que aproveita um modelo fundacional pré-treinado (CLIP) para gerar e refinar dinamicamente prompts online, permitindo que o rastreador suprima distratores e melhore o desempenho no rastreamento genérico de objetos.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

O artigo apresenta o Pose Prior Learner (PPL), um método não supervisionado que aprende um prior categórico geral para estimativa de pose de objetos, utilizando uma memória hierárquica de partes composicionais para refinar a precisão da estimativa e lidar com oclusões sem necessidade de anotações humanas.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

O artigo apresenta o ExpGest, um novo framework baseado em modelo de difusão que utiliza informações sincronizadas de áudio e texto para gerar gestos corporais completos, expressivos e controláveis, superando as limitações de rigidez e falta de contexto emocional dos métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Este artigo propõe um sistema neurosimbólico que aprende a reconstruir imagens médicas a partir de primitivas visuais, resultando em um modelo mais transparente e preciso para o diagnóstico de anomalias em imagens histológicas do que as arquiteturas convencionais de aprendizado profundo.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Este artigo propõe um novo quadro para modelos de difusão que adapta dinamicamente o processo de geração às necessidades de cada amostra, permitindo trajetórias variáveis que mantêm a qualidade da imagem enquanto reduzem o número médio de etapas de amostragem.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

O artigo apresenta o Prithvi-EO-2.0, um modelo fundamental de observação da Terra de código aberto e multi-temporal que, treinado em 4,2 milhões de amostras globais, supera seu antecessor e outros modelos concorrentes em diversas tarefas geoespaciais, desde monitoramento de desastres até mapeamento de culturas, graças à sua versatilidade e ao envolvimento contínuo de especialistas.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

← Anterior Próximo →