cs.CV artigos | Gist.Science

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

O artigo apresenta o MASQuant, um novo framework de quantização pós-treinamento para Modelos de Linguagem Multimodais (MLLMs) que resolve problemas de desalinhamento e invariância computacional entre modalidades através de suavização específica por modalidade e compensação baseada em SVD, alcançando desempenho competitivo em modelos duais e tri-ais.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Este artigo propõe o método DCR (Diffusion Contrastive Reconstruction), que integra sinais contrastivos derivados das imagens reconstruídas em vez das originais no processo de difusão para superar as limitações do CLIP, equilibrando simultaneamente a capacidade discriminativa e a percepção de detalhes na representação visual.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

O artigo apresenta o Meta-D, uma arquitetura que utiliza metadados categóricos de exames de ressonância magnética para orientar a extração de características, melhorando significativamente a detecção de tumores cerebrais e a segmentação em cenários com modalidades ausentes ao estabilizar representações e reduzir parâmetros do modelo.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Este artigo demonstra que, ao corrigir lacunas de domínio por meio de um novo conjunto de dados de alta qualidade e aumentação de dados sensível ao sensor, um modelo leve treinado com polarização supera os modelos fundacionais baseados apenas em RGB na estimativa de normais de superfície, oferecendo ganhos significativos em eficiência de dados e parâmetros.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

O artigo propõe o framework CAD (Class-specific Augmentation based Disentanglement), que mitiga o emaranhamento de instâncias no aprendizado de rótulos parciais dependente de instância (ID-PLL) através de regulamentações intra e interclasse para melhorar a clareza dos limites entre classes e reduzir a confusão.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Este artigo propõe o SADCA, um método de ataque adversarial que melhora a transferibilidade em modelos visão-linguagem através de interações dinâmicas contrastivas guiadas semanticamente e de um módulo de aumento de semântica para gerar perturbações mais robustas e generalizáveis.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Este artigo apresenta o MPCAttack, um novo framework de ataque adversarial colaborativo multi-paradigma que melhora a transferabilidade de exemplos adversariais contra Modelos de Linguagem Grandes Multimodais (MLLMs) ao agregar representações semânticas de imagens e textos para otimização conjunta, superando os métodos existentes em diversos benchmarks.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

O artigo apresenta o GloSplat, um framework que realiza otimização conjunta de pose e aparência durante o treinamento de 3D Gaussian Splatting, preservando rastros explícitos de características SfM como âncoras geométricas para evitar a deriva de pose e alcançar reconstruções 3D mais rápidas e precisas, superando tanto os métodos baseados em COLMAP quanto os que dispensam sua utilização.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Este trabalho propõe o uso de Grafos de Precedência de Teoremas e restrições topológicas explícitas para superar o problema de "Deriva Estrutural" na previsão de teoremas via aprendizado in-context, alcançando desempenho competitivo com modelos supervisionados sem necessidade de otimização baseada em gradientes.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Este artigo apresenta um pipeline de vídeo monoculário baseado em DreamPose3D que extrai métricas biomecânicas precisas de transmissões esportivas para permitir a triagem escalável de risco de lesões em arremessadores de beisebol, alcançando desempenho comparável a sistemas de captura de movimento profissionais.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

O artigo apresenta o SURE, um novo framework de correspondência de características semi-densa que aprimora a confiabilidade em cenários desafiadores ao prever simultaneamente correspondências e sua incerteza, superando os modelos existentes em precisão e eficiência.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Este artigo apresenta o Prompt-Driven Noise Generation (PNG), um novo framework baseado em difusão que sintetiza imagens ruidosas realistas em espaço sRGB aprendendo representações de ruído a partir de prompts de alta dimensão, eliminando a dependência de metadados de câmera e melhorando a generalização para a remoção de ruído em cenários do mundo real.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Este estudo apresenta um modelo interpretável que alcança 80,4% de precisão na antecipação de oito tipos de arremessos de beisebol a partir de sequências de pose 3D em broadcast, revelando que a mecânica do tronco e do pulso são os principais preditores e estabelecendo um limite empírico de aproximadamente 80% para a distinção de variantes baseadas apenas no movimento corporal.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Este trabalho propõe um novo framework de duas etapas para a geração automática de relatórios de tomografia computadorizada, que utiliza aprendizado contrastivo imagem-texto orientado por observações estruturais e uma fila negativa dinâmica para capturar correspondências semânticas precisas entre estruturas anatômicas e descrições clínicas, alcançando desempenho superior ao estado da arte em eficiência clínica.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

O artigo apresenta o DeformTrace, um modelo de espaço de estados deformável com tokens de retransmissão que supera as limitações atuais na localização temporal de falsificações ao oferecer maior precisão, sensibilidade a anomalias esparsas e eficiência computacional.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Este trabalho propõe o FedMEPD, um novo framework de aprendizado federado que utiliza codificadores específicos por modalidade e um decodificador de fusão parcialmente personalizado, permitindo que clientes com modalidades incompletas compensem a perda de informação via atenção cruzada e obtenham modelos adaptados às suas características locais, superando assim os desafios de heterogeneidade intermodal e personalização em segmentação de tumores cerebrais.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

O artigo propõe o FedAFD, um quadro unificado de aprendizado federado multimodal que utiliza alinhamento adversarial, fusão adaptativa e destilação guiada por similaridade para superar desafios de heterogeneidade de dados e modelos, melhorando o desempenho tanto no cliente quanto no servidor.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Este trabalho apresenta o "Locality-Attending Vision Transformer" (LocAtViT), uma abordagem simples e eficaz que melhora o desempenho de segmentação de transformers de visão sem sacrificar a classificação, ao modular a atenção global com um kernel Gaussiano aprendível para priorizar detalhes espaciais locais.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

O artigo apresenta o FC-VFI, um método de interpolação de quadros de vídeo que utiliza modelagem temporal em sequências latentes e linhas de correspondência semântica para gerar vídeos de alta fidelidade e consistência temporal, permitindo a conversão de 30 FPS para 120 e 240 FPS em resolução 2560×1440.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

O artigo propõe o AdaIAT, um método que aumenta adaptativamente a atenção aos tokens de texto gerado com base em padrões de atenção observados, reduzindo significativamente as alucinações em Modelos de Linguagem e Visão de Grande Escala (LVLMs) sem comprometer a coerência linguística ou causar descrições repetitivas.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

← Anterior Próximo →