cs.CV artigos | Gist.Science

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

O artigo propõe a CA-Jaccard, uma nova métrica de distância para re-identificação de pessoas que mitiga o impacto negativo da variação de câmeras na confiabilidade da distância Jaccard ao introduzir vizinhos k-recíprocos e expansão de consulta local sensíveis às câmeras para melhorar a seleção de vizinhos relevantes.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

O artigo apresenta o DivCon, uma abordagem de "dividir e conquistar" que melhora a geração de imagens a partir de texto ao decompor a tarefa em etapas de raciocínio e planejamento visual, permitindo que modelos de linguagem leves superem métodos anteriores na precisão espacial e na qualidade perceptual de cenas complexas.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Esta pesquisa oferece uma revisão abrangente e um benchmark das tecnologias de geração e detecção de deepfakes, analisando métodos de ponta, conjuntos de dados, métricas e desafios futuros em subáreas como troca de rostos, reencenação e edição de atributos faciais.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Este artigo propõe três novos conjuntos de teste desafiadores e de alta qualidade (Hadrian, Eclipse e ND-Twins) para avaliar a robustez de algoritmos de reconhecimento facial em variações de atributos e semelhanças entre indivíduos, superando a necessidade de reduzir artificialmente a qualidade das imagens para obter dificuldades comparáveis às existentes.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artigo investiga a fase de corrupção observada no ajuste fino de poucos exemplos de Modelos de Difusão, identifica sua causa na distribuição de aprendizado restrita e propõe o uso de Redes Neurais Bayesianas para mitigar esse problema, melhorando a fidelidade, qualidade e diversidade das imagens geradas sem custos adicionais de inferência.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

O artigo apresenta o RDM, um modelo de difusão recorrente que utiliza Fluxos Normalizantes para gerar sequências longas e alinhadas ao texto com alta eficiência computacional, evitando o custo de desnoising completo das quadros anteriores.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

O artigo apresenta o PiVOT, um novo mecanismo de prompting visual que aproveita um modelo fundacional pré-treinado (CLIP) para gerar e refinar dinamicamente prompts online, permitindo que o rastreador suprima distratores e melhore o desempenho no rastreamento genérico de objetos.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

O artigo apresenta o Pose Prior Learner (PPL), um método não supervisionado que aprende um prior categórico geral para estimativa de pose de objetos, utilizando uma memória hierárquica de partes composicionais para refinar a precisão da estimativa e lidar com oclusões sem necessidade de anotações humanas.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

O artigo apresenta o ExpGest, um novo framework baseado em modelo de difusão que utiliza informações sincronizadas de áudio e texto para gerar gestos corporais completos, expressivos e controláveis, superando as limitações de rigidez e falta de contexto emocional dos métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Este artigo propõe um sistema neurosimbólico que aprende a reconstruir imagens médicas a partir de primitivas visuais, resultando em um modelo mais transparente e preciso para o diagnóstico de anomalias em imagens histológicas do que as arquiteturas convencionais de aprendizado profundo.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Este artigo propõe um novo quadro para modelos de difusão que adapta dinamicamente o processo de geração às necessidades de cada amostra, permitindo trajetórias variáveis que mantêm a qualidade da imagem enquanto reduzem o número médio de etapas de amostragem.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

O artigo apresenta o Prithvi-EO-2.0, um modelo fundamental de observação da Terra de código aberto e multi-temporal que, treinado em 4,2 milhões de amostras globais, supera seu antecessor e outros modelos concorrentes em diversas tarefas geoespaciais, desde monitoramento de desastres até mapeamento de culturas, graças à sua versatilidade e ao envolvimento contínuo de especialistas.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

O artigo apresenta o iLLaVA, uma abordagem que acelera modelos multimodais de grande escala otimizando conjuntamente o codificador de imagem e o LLM através de uma estratégia inovadora de fusão de tokens que recicla informações descartadas, resultando em ganhos significativos de eficiência e desempenho tanto em tarefas de imagem quanto de vídeo.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

O artigo apresenta o HarmonicEval, uma métrica de avaliação automática sem referência que agrega pontuações por critério de forma bottom-up, e o benchmark MMHE, composto por 18.000 julgamentos humanos em quatro tarefas multimodais, demonstrando que essa abordagem supera as métricas convencionais ao alinhar-se melhor com os julgamentos humanos em cenários de múltiplas tarefas e critérios.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

O artigo apresenta o LangSurf, um método inovador que utiliza um campo de linguagem embutido em superfícies e um módulo de consciência contextual hierárquica para alinhar com precisão campos de linguagem 3D às superfícies de objetos, superando as abordagens anteriores e permitindo segmentação, reconhecimento e edição de instâncias em 3D com base em consultas de texto.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este artigo propõe um método que utiliza modelos de visão e linguagem pré-treinados para aprender modelos de mundo simbólicos abstratos a partir de demonstrações curtas, permitindo que robôs generalizem para zero-shot e resolvam problemas de tomada de decisão de longo horizonte em cenários complexos e variados através de planejamento.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Este artigo propõe estratégias de redução de dados baseadas em agrupamento no espaço latente para otimizar o treinamento adversário semi-supervisionado, permitindo alcançar robustez comparável com 5 a 10 vezes menos dados não rotulados e reduzir o tempo de execução em 3 a 4 vezes.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Este artigo propõe um modelo de difusão agnóstico ao problema, baseado na estimativa de um termo guiado de máxima a posteriori (MAP), que aproveita modelos pré-treinados incondicionais para resolver problemas inversos em processamento de imagens, demonstrando superioridade na preservação de estruturas e coerência em comparação com métodos existentes.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

O artigo apresenta o GPC (Generative Predictive Control), um framework de aprendizado que combina clonagem de comportamento, modelagem preditiva do mundo e planejamento online para superar consistentemente a clonagem de comportamento em diversas tarefas de manipulação robótica, tanto em simulação quanto no mundo real.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

O artigo apresenta o VL-Nav, um sistema de navegação visão-linguagem neuro-simbólico que combina raciocínio neural com orientação simbólica para decompor tarefas complexas e otimizar a exploração, alcançando altas taxas de sucesso em ambientes internos, externos e em testes do mundo real.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

← Anterior Próximo →