cs.CV artigos | Gist.Science

Toward Early Quality Assessment of Text-to-Image Diffusion Models

O artigo apresenta o "Probe-Select", um módulo plug-in que avalia a qualidade de imagens geradas por modelos de difusão texto-para-imagem a partir de ativações intermediárias iniciais, permitindo a seleção eficiente de sementes promissoras e reduzindo o custo computacional em mais de 60% sem alterar o modelo gerador.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

Este trabalho generaliza o método de 3D Gaussian Splatting para um modelo de formação de imagem não exponencial, permitindo variantes com decaimento mais rápido que o exponencial que mantêm a qualidade visual original enquanto reduzem significativamente o sobredesenho e aceleram o renderizado em até 4 vezes.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

O artigo apresenta o TRACE, um novo modelo de recuperação multimodal universal que combina raciocínio generativo e aprendizado de representações discriminativas para gerar embeddings adaptativos que ativam automaticamente o raciocínio complexo apenas quando necessário, alcançando desempenho de ponta e forte transferência zero-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

O artigo apresenta o MoECLIP, uma arquitetura de Mistura de Especialistas (MoE) que aprimora a Detecção de Anomalias Zero-Shot ao direcionar dinamicamente cada patch de imagem para um especialista LoRA especializado, utilizando separação ortogonal de recursos congelados e uma perda de quadro apertado equiangular (ETF) para evitar redundância e superar os métodos existentes em diversos domínios.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

O artigo apresenta o ProSMA-UNet, uma arquitetura de segmentação médica que reformula as conexões de salto como um problema de seleção esparsa de características condicionada ao decodificador, utilizando um operador de proximidade $\ell_1$ para eliminar explicitamente ruídos e texturas irrelevantes, alcançando desempenho superior em benchmarks 2D e 3D desafiadores.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

Este trabalho apresenta o SpeciaRL, um novo framework de aprendizado por reforço consciente da especificidade que ajusta modelos multimodais de raciocínio para realizar classificações de imagens de granulação fina em cenários de mundo aberto, equilibrando eficazmente a precisão e o nível de detalhe das previsões.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

Este artigo apresenta uma revisão abrangente da Modelagem 3D Baseada em Esboços Profunda (DS-3DM), introduzindo o novo espaço de design MORPHEUS baseado no framework Input-Model-Output para categorizar métodos, identificar limitações e apontar oportunidades de pesquisa interdisciplinar que visam alinhar melhor os processos criativos à intenção do usuário.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Este estudo demonstra que a transferência de aprendizado baseada na iconicidade entre línguas de sinais distintas (chinês para árabe e grego para flamengo) melhora significativamente o reconhecimento, alcançando um ganho de 7,02% para o árabe e 1,07% para o flamengo ao utilizar Mediapipe com arquiteturas MLP e GRU.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Este artigo apresenta o mHC-HSI, um modelo inovador de classificação de imagens hiperespectrais que combina o Mamba com conexões hiperconectadas guiadas por agrupamento para melhorar a aprendizagem de características espaciais e espectrais, a interpretabilidade e a precisão através da decomposição em clusters e da integração de conhecimento físico espectral.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Este estudo demonstra que, embora o aprendizado por reforço (RLVR) melhore a precisão em benchmarks de VQA médica, ele frequentemente degrada a dependência visual real, levando a alucinações visuais e revelando a necessidade urgente de protocolos de avaliação que vão além da precisão para garantir o verdadeiro raciocínio multimodal.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

O artigo apresenta o Proact-VL, um framework geral que transforma modelos de linguagem multimodal em agentes interativos proativos e em tempo real para companheiros de IA, superando desafios de latência e decisão autônoma através de uma nova métrica de benchmark chamada Live Gaming.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Este estudo analisa o impacto de erros de localização (como ruído de rampa, Gaussiano e Perlin) na qualidade dos rótulos para a construção de mapas HD online, demonstrando que erros de ângulo afetam mais severamente o desempenho do modelo do que erros de posição e que a degradação do desempenho cresce mais do que linearmente com o aumento de dados ruidosos.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

O artigo apresenta o PERSIST, um novo paradigma de modelo de mundo que simula a evolução de uma cena 3D latente para superar as limitações de consistência e memória espacial dos modelos atuais, permitindo a geração de vídeos interativos com memória espacial persistente, geometria coerente e controle direto no espaço 3D.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

O artigo apresenta o Phys4D, um pipeline de três estágios que transforma modelos de difusão de vídeo em representações 4D consistentes com a física, utilizando pré-treinamento pseudo-supervisionado, ajuste fino baseado em simulação e aprendizado por reforço para garantir coerência geométrica e dinâmica temporal.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Este estudo apresenta uma nova abordagem baseada em um Transformer Bayesiano de Alta Resolução com aprendizado supervisionado fraco geograficamente ponderado, que funde dados de Sentinel-1, RCM e AMSR2 para gerar mapas de concentração de gelo marinho no Ártico com resolução de 200 metros e estimativas de incerteza confiáveis, superando desafios como características sutis do gelo e rótulos imperfeitos.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

O PhyPrompt é um framework de aprendizado por reforço que refina automaticamente prompts para geradores de texto-para-vídeo, utilizando um currículo dinâmico de recompensas para otimizar simultaneamente a aderência semântica e a plausibilidade física, superando modelos muito maiores e alcançando resultados superiores em diversas arquiteturas.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

O artigo apresenta o PinCLIP, um modelo de representação multimodal em larga escala desenvolvido pelo Pinterest que, através de uma arquitetura híbrida inovadora e objetivos de alinhamento específicos, supera os métodos existentes em tarefas de recuperação e gera impactos positivos significativos no engajamento e na distribuição de conteúdo novo.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

O artigo apresenta o PolyV, um modelo unificado de visão que alcança sinergia entre diferentes modalidades visuais (imagens, vídeos e dados 3D) através de uma arquitetura de mistura de especialistas esparsa e um paradigma de treinamento focado em alinhamento e refinamento mútuo, superando significativamente os modelos existentes em diversas tarefas de compreensão visual.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Este artigo propõe um novo framework de estimativa de profundidade monocultural consciente de confiança para cirurgia minimamente invasiva, que utiliza alvos de confiança calibrados, funções de perda adaptadas e uma cabeça de inferência para melhorar a precisão e quantificar a confiabilidade das previsões de profundidade na presença de ruídos e artefatos endoscópicos.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

O artigo apresenta o L2G-Det, um framework de detecção de instâncias que supera métodos baseados em propostas ao utilizar correspondência densa de patches para gerar e refinar pontos candidatos, os quais orientam um modelo SAM aprimorado para segmentar objetos específicos em cenas abertas e complexas a partir de poucas imagens de referência.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

← Anterior Próximo →