cs.CV artigos | Gist.Science

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

O artigo apresenta o SesaHand, um método que aprimora a reconstrução 3D de mãos ao gerar imagens sintéticas diversificadas e alinhadas semanticamente e estruturalmente, utilizando inferência de Cadeia de Pensamento para capturar comportamentos humanos e fusão estrutural hierárquica para garantir a coerência entre a mão e o corpo.

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

Este trabalho propõe um método aprimorado de compressão adversarial de difusão para super-resolução de vídeo no mundo real, que distila um modelo DiT pesado em uma rede leve com convoluções temporais e um esquema de distilação adversarial de dupla cabeça, reduzindo a complexidade em 95% e acelerando a inferência em 8 vezes sem comprometer a qualidade visual ou a consistência temporal.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

Este artigo apresenta o LSS-LTCNet, um modelo explicável e eficiente para segmentação de úlceras nos pés que combina descritores de auto-similaridade local e dinâmica neural de tempo contínuo para alcançar precisão de borda superior e transparência em ambientes de saúde móvel.

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs

ReMoT: Reinforcement Learning with Motion Contrast Triplets

O artigo apresenta o ReMoT, um paradigma de treinamento unificado que combina um conjunto de dados de contrastes de movimento gerado automaticamente e o algoritmo de Otimização de Política Relativa Agrupada (GRPO) para superar as limitações de consistência espaço-temporal dos Modelos de Linguagem Visuais, alcançando desempenho superior em tarefas de raciocínio dinâmico.

Cong Wan, Zeyu Guo, Jiangyang Li + 5 more2026-03-03💻 cs

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

O artigo propõe o OPGAgent, um sistema de agente multi-ferramenta que supera os modelos de linguagem visual existentes na interpretação auditável de radiografias panorâmicas dentais (OPGs) ao coordenar módulos especializados com um mecanismo de consenso e introduzir o OPG-Bench para uma avaliação estruturada e abrangente.

Zhaolin Yu, Litao Yang, Ben Babicka + 7 more2026-03-03🤖 cs.AI

DreamWorld: Unified World Modeling in Video Generation

O artigo apresenta o DreamWorld, um framework unificado que integra múltiplos tipos de conhecimento do mundo em geradores de vídeo através de um paradigma de modelagem conjunta e técnicas de regularização, resultando em uma consistência temporal e espacial superior à dos modelos existentes.

Boming Tan, Xiangdong Zhang, Ning Liao + 5 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

Este artigo apresenta um sistema de imagem de alta faixa dinâmica (HDR) co-projetado em hardware e algoritmo que integra de forma assimétrica uma câmera com exposição espacialmente variável e um sensor de eventos, utilizando um framework de alinhamento cruzado e uma rede de reconstrução para superar as limitações de superexposição em ambientes com iluminação extrema.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Este trabalho apresenta o FEWTRANS, um benchmark abrangente com um novo protocolo de avaliação, que revela que a escolha do modelo pré-treinado é mais determinante que métodos complexos de adaptação, demonstrando que o ajuste fino completo supera técnicas sofisticadas em cenários de poucos exemplos devido a ajustes micro distribuídos e à melhor reconfiguração de representações semânticas.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

O artigo apresenta o U-VLM, um modelo hierárquico de visão e linguagem que utiliza um encoder pré-treinado em segmentação e injeção visual multicamada para gerar relatórios radiológicos a partir de imagens 3D, alcançando desempenho superior ao de modelos com decodificadores muito maiores.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Este artigo apresenta uma análise que combina um quadro probabilístico para determinar o número de cédulas adversariais necessárias para alterar o resultado de uma eleição nos EUA com uma avaliação empírica de 144.000 exemplos físicos, revelando uma lacuna crítica entre os domínios digital e físico onde os tipos de ataques mais eficazes diferem significativamente.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

O artigo propõe o TaiChi, um novo modelo de linguagem visual que supera as limitações de granularidade e alinhamento das abordagens atuais através de um tokenizador dual, uma rede de atenção bilateral e um projetor baseado em KAN, demonstrando sua eficácia em um sistema de comunicação multimodal e multitarefa.

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

O RAISE é um framework evolutivo de autoaperfeiçoamento sem treinamento que melhora o alinhamento texto-imagem em modelos de difusão adaptando dinamicamente o esforço computacional à complexidade do prompt por meio de ações de refinamento e verificação baseada em checklist, alcançando desempenho superior com menor custo computacional.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

Este artigo propõe e valida a estratégia de agrupamento aleatório como uma abordagem simples e unificada que supera métodos de agrupamento complexos e cuidadosamente projetados em Transformers de visão, demonstrando que o cumprimento de quatro condições essenciais (informação posicional, diversidade de características dos cabeçalhos, campo receptivo global e ausência de padrão de agrupamento fixo) é suficiente para obter desempenho superior em diversas tarefas visuais e multimodais.

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

O artigo apresenta o ArtiFixer, um pipeline de duas etapas que utiliza um modelo de difusão bidirecional treinado com uma estratégia de mistura de opacidade e um modelo auto-regressivo causal para gerar centenas de vistas consistentes em uma única passagem, corrigindo artefatos e melhorando significativamente a reconstrução 3D em áreas não observadas, superando os métodos atuais em qualidade e escalabilidade.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

O artigo apresenta o COG, um framework não supervisionado para estimativa de pose 6DoF de objetos novos a partir de uma única referência, que formula a correspondência geométrica como um problema de transporte ótimo consciente de confiança para gerar correspondências suaves e balanceadas, superando as limitações de métodos existentes e alcançando desempenho comparável ou superior a abordagens supervisionadas.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

O artigo apresenta o M $^2$ , um framework livre de treinamento que utiliza um mecanismo de memória dupla, combinando sumarização dinâmica de trajetórias e recuperação de insights, para superar as limitações de tarefas de longo prazo em agentes web, resultando em aumentos significativos nas taxas de sucesso e reduções substanciais no uso de tokens.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

Este estudo apresenta o HiClass, um framework de classificação hierárquica baseado em aprendizado de múltiplas instâncias que, ao integrar bidirecionalmente características de diferentes níveis e empregar funções de perda personalizadas, supera os métodos de classificação plana na análise de imagens de histopatologia de lâminas inteiras (WSI).

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Este trabalho introduz o framework analítico EmbedLens para revelar que os tokens visuais em modelos de linguagem multimodais exibem uma esparsidade semântica significativa, onde apenas cerca de 60% dos tokens "vivos" carregam informações essenciais, demonstrando que a computação visual interna é frequentemente redundante e que a injeção direta desses tokens em camadas intermediárias do LLM é suficiente para tarefas complexas.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

O artigo propõe o MMA-RAG, um sistema de Resposta Visual a Perguntas que utiliza uma análise de representações internas para decidir dinamicamente quando incorporar conhecimento externo recuperado, reduzindo assim as alucinações e melhorando a robustez em cenários multimodais.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

O artigo apresenta o MLLM-4D, um framework inovador que supera as limitações atuais de modelos multimodais na inteligência espaço-temporal 4D ao utilizar um pipeline de curadoria de dados eficiente e uma estratégia de pós-treinamento com GRPO e raciocínio em cadeia especializado, alcançando desempenho de ponta na compreensão e raciocínio de evolução 3D a partir de entradas visuais 2D.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

← Anterior Próximo →

cs.CV