cs.CV artigos | Gist.Science

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

O artigo propõe o método S²-Guidance, uma técnica de treinamento livre que utiliza o bloqueio estocástico de blocos para refinar as previsões subótimas de modelos de difusão e superar o desempenho da Guia Livre de Classificador (CFG) na geração de imagens e vídeos.

Chubin Chen, Jiashu Zhu, Xiaokun Feng + 7 more2026-03-05💻 cs

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

Este artigo conceitual propõe o Sistema Adaptativo de Detecção de Crateras Planetárias Quantizado (AQ-PCDSys), uma arquitetura que integra redes neurais quantizadas e fusão sensorial adaptativa para viabilizar a detecção de crateras em tempo real em hardware espacial com restrições rigorosas de energia e memória.

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments

O artigo apresenta o ROBUST-MIPS, um novo conjunto de dados que combina pose esquelética e segmentação de instâncias de instrumentos cirúrgicos laparoscópicos, demonstrando que a anotação de pose é uma abordagem eficiente e rica em informações para impulsionar o desenvolvimento de tecnologias de intervenção assistida por computador.

Zhe Han, Charlie Budd, Gongyu Zhang + 3 more2026-03-05💻 cs

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

O artigo propõe um framework leve de poda de tokens que filtra regiões de fundo não informativas e refina áreas de texto fragmentado em imagens de documentos, reduzindo significativamente os custos computacionais dos modelos visão-linguagem sem comprometer a precisão na compreensão de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

QDFlow: A Python package for physics simulations of quantum dot devices

O QDFlow é um pacote de simulação física de código aberto para dispositivos de pontos quânticos que gera dados sintéticos realistas com rótulos verdadeiros, superando as limitações de coleta experimental e facilitando o desenvolvimento e a validação de modelos de aprendizado de máquina para calibração e operação desses dispositivos.

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler + 2 more2026-03-05⚛️ quant-ph

Enhancing Feature Fusion of U-like Networks with Dynamic Skip Connections

Este artigo propõe o bloco de Conexão de Salto Dinâmico (DSC), que supera as limitações das conexões convencionais em redes do tipo U para segmentação de imagens médicas ao integrar módulos de Treinamento em Tempo de Teste e de Kernel Multi-Escala Dinâmico para adaptação baseada no conteúdo e integração de contexto global, demonstrando eficácia plug-and-play em diversas arquiteturas.

Yue Cao, Quansong He, Kaishen Wang + 3 more2026-03-05💻 cs

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

Este trabalho apresenta o primeiro estudo sobre segmentação de objetos em vídeo baseada em ação sob ruído de rótulo, introduzindo o benchmark ActiSeg-NL, analisando estratégias de aprendizado robusto e propondo o mecanismo PMHM para mitigar ruídos em anotações de texto e máscaras.

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Este artigo apresenta um solver local rápido e com certificado de otimalidade global para estimar a forma e a pose de objetos em nível de categoria a partir de imagens RGB-D, utilizando um modelo de forma ativa linear e iteração de campo autoconsistente para alcançar tempos de execução inferiores a um milissegundo.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

Raw-JPEG Adapter: Efficient Raw Image Compression with JPEG

Este artigo apresenta o Raw-JPEG Adapter, um pipeline de pré-processamento leve e invertível que adapta imagens raw para compressão JPEG padrão, permitindo sua reconstrução precisa com alta fidelidade e uma excelente relação entre taxa de compressão e qualidade.

Mahmoud Afifi, Ran Zhang, Michael S. Brown2026-03-05💻 cs

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

O artigo apresenta o Vision-Zero, um framework inovador de auto-aprendizagem sem rótulos para Modelos de Linguagem e Visão (VLMs) que utiliza um sistema multiagente de "jogos estratégicos" gerados a partir de imagens arbitrárias e um algoritmo de otimização iterativa para alcançar melhorias sustentáveis de desempenho em diversas tarefas de raciocínio visual, superando métodos que dependem de anotação humana.

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

Este trabalho apresenta um novo framework de edição de imagem sem treinamento que formula o processo como um problema de controle ótimo de trajetória, utilizando estados adjuntos iterativos para maximizar recompensas específicas enquanto preserva a fidelidade semântica da imagem original.

Jinho Chang, Jaemin Kim, Jong Chul Ye2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

Este artigo apresenta uma investigação sistemática sobre a geração e edição de visuais estruturados, introduzindo um conjunto de dados de grande escala, um modelo unificado treinado com raciocínio aprimorado e o benchmark StructBench para avaliar a precisão factual, demonstrando que as abordagens atuais ainda carecem de desempenho satisfatório nessa área.

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

O artigo apresenta o TIGeR, um novo framework que aprimora os Modelos Visão-Linguagem para robótica ao integrá-los com ferramentas computacionais externas para realizar cálculos geométricos precisos, superando as limitações de estimativa qualitativa e alcançando precisão em nível de centímetros em tarefas de manipulação real.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

Topological Alignment of Shared Vision-Language Embedding Space

O artigo apresenta o ToMCLIP, um framework que utiliza alinhamento topológico baseado em homologia persistente para corrigir o viés linguístico e melhorar a coerência estrutural e o desempenho de modelos de visão e linguagem multilíngues.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

O artigo apresenta o COGS, um framework de síntese de dados que aprimora a capacidade de raciocínio de modelos de linguagem multimídia em domínios com poucas anotações, como gráficos e documentos, decompondo perguntas em fatores primitivos para gerar conjuntos de dados sintéticos que permitem treinamento com recompensas de processo em nível de fator.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

Este artigo investiga a dependência da detecção de dados fora de distribuição (OOD) baseada em Mahalanobis em relação à geometria das representações de fundo, identificando a estrutura espectral e a dimensionalidade intrínseca como fatores críticos e propondo uma normalização radial escalada ( $\ell_2$ ) que ajusta os raios das características para melhorar o desempenho sem alterar suas direções.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

O artigo apresenta o Kaleido, um modelo de geração de vídeo aberto que supera as limitações atuais na consistência de múltiplos sujeitos e na fidelidade de referência, graças a um pipeline de construção de dados aprimorado e à introdução do Reference Rotary Positional Encoding (R-RoPE).

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

Este artigo propõe o Prior-guided Concept Predictor (PCP), um framework de aprendizado supervisionado fraco que utiliza priors de conceitos ao nível da classe para gerar previsões interpretáveis em diagnósticos médicos sem necessidade de anotações explícitas, superando significativamente modelos de linguagem zero-shot e alcançando desempenho competitivo em relação a modelos totalmente supervisionados.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

Este artigo propõe um novo quadro unificado que otimiza simultaneamente a geometria da malha e as cores dos vértices por meio de uma renderização diferenciável guiada por Gaussianas, integrando consistência fotométrica e regularização geométrica para gerar reconstruções 3D de alta qualidade prontas para tarefas de edição downstream.

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Este artigo propõe o framework "Edge-awareness Semantic Concordance" (ESC), que utiliza dicas de bordas latentes e indicadores de incerteza para fundir de forma resiliente os dados heterogêneos de eventos e RGB, superando as limitações das segmentações semânticas existentes em condições extremas como baixa iluminação e movimento intenso da câmera.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

← Anterior Próximo →