cs.CV artigos | Gist.Science

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Este trabalho propõe o uso de Grafos de Precedência de Teoremas e restrições topológicas explícitas para superar o problema de "Deriva Estrutural" na previsão de teoremas via aprendizado in-context, alcançando desempenho competitivo com modelos supervisionados sem necessidade de otimização baseada em gradientes.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Este artigo apresenta um pipeline de vídeo monoculário baseado em DreamPose3D que extrai métricas biomecânicas precisas de transmissões esportivas para permitir a triagem escalável de risco de lesões em arremessadores de beisebol, alcançando desempenho comparável a sistemas de captura de movimento profissionais.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

O artigo apresenta o SURE, um novo framework de correspondência de características semi-densa que aprimora a confiabilidade em cenários desafiadores ao prever simultaneamente correspondências e sua incerteza, superando os modelos existentes em precisão e eficiência.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Este artigo apresenta o Prompt-Driven Noise Generation (PNG), um novo framework baseado em difusão que sintetiza imagens ruidosas realistas em espaço sRGB aprendendo representações de ruído a partir de prompts de alta dimensão, eliminando a dependência de metadados de câmera e melhorando a generalização para a remoção de ruído em cenários do mundo real.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Este estudo apresenta um modelo interpretável que alcança 80,4% de precisão na antecipação de oito tipos de arremessos de beisebol a partir de sequências de pose 3D em broadcast, revelando que a mecânica do tronco e do pulso são os principais preditores e estabelecendo um limite empírico de aproximadamente 80% para a distinção de variantes baseadas apenas no movimento corporal.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Este trabalho propõe um novo framework de duas etapas para a geração automática de relatórios de tomografia computadorizada, que utiliza aprendizado contrastivo imagem-texto orientado por observações estruturais e uma fila negativa dinâmica para capturar correspondências semânticas precisas entre estruturas anatômicas e descrições clínicas, alcançando desempenho superior ao estado da arte em eficiência clínica.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

O artigo apresenta o DeformTrace, um modelo de espaço de estados deformável com tokens de retransmissão que supera as limitações atuais na localização temporal de falsificações ao oferecer maior precisão, sensibilidade a anomalias esparsas e eficiência computacional.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Este trabalho propõe o FedMEPD, um novo framework de aprendizado federado que utiliza codificadores específicos por modalidade e um decodificador de fusão parcialmente personalizado, permitindo que clientes com modalidades incompletas compensem a perda de informação via atenção cruzada e obtenham modelos adaptados às suas características locais, superando assim os desafios de heterogeneidade intermodal e personalização em segmentação de tumores cerebrais.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

O artigo propõe o FedAFD, um quadro unificado de aprendizado federado multimodal que utiliza alinhamento adversarial, fusão adaptativa e destilação guiada por similaridade para superar desafios de heterogeneidade de dados e modelos, melhorando o desempenho tanto no cliente quanto no servidor.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Este trabalho apresenta o "Locality-Attending Vision Transformer" (LocAtViT), uma abordagem simples e eficaz que melhora o desempenho de segmentação de transformers de visão sem sacrificar a classificação, ao modular a atenção global com um kernel Gaussiano aprendível para priorizar detalhes espaciais locais.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

O artigo apresenta o FC-VFI, um método de interpolação de quadros de vídeo que utiliza modelagem temporal em sequências latentes e linhas de correspondência semântica para gerar vídeos de alta fidelidade e consistência temporal, permitindo a conversão de 30 FPS para 120 e 240 FPS em resolução 2560×1440.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

O artigo propõe o AdaIAT, um método que aumenta adaptativamente a atenção aos tokens de texto gerado com base em padrões de atenção observados, reduzindo significativamente as alucinações em Modelos de Linguagem e Visão de Grande Escala (LVLMs) sem comprometer a coerência linguística ou causar descrições repetitivas.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Este trabalho propõe um método de otimização de textura adversarial 3D consistente com a viewpoint, utilizando renderização diferenciável e estratégias de aprendizado como EOT e um currículo de refinamento, para explorar e explorar vulnerabilidades em políticas visuomotoras de robôs sob condições de viewpoint dinâmico, superando as limitações dos ataques de patches 2D tradicionais.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Este artigo apresenta a criação de um conjunto de dados específico para detecção e rastreamento de pessoas por LiDAR em visão aérea de guindastes industriais, avaliando e adaptando detectores 3D e algoritmos de rastreamento para superar o deslocamento de domínio e demonstrar a viabilidade em tempo real dessa aplicação.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Este artigo propõe um novo framework de aprendizado fraco supervisionado baseado em protótipos para o grau de câncer de próstata, que combina características prototípicas robustas, uma função de perda específica e um mecanismo de poda dinâmica para oferecer um sistema automatizado interpretável e confiável que imita o raciocínio dos patologistas.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

O artigo apresenta o TimeWarp, um benchmark que avalia a robustez de agentes web diante de mudanças no design e layout da internet, e propõe o algoritmo TimeTraj, que utiliza destilação de planos em múltiplas versões de interface para superar as limitações da clonagem de comportamento tradicional e melhorar significativamente o desempenho de modelos como Qwen-3 e Llama-3.1.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Os autores propõem um framework de pré-treinamento com tarefas sensíveis à localização para aprimorar a capacidade de encoders visuais em detectar variações sutis entre imagens médicas, alcançando desempenho superior em respostas a perguntas visuais sobre diferenças em radiografias de tórax.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

O artigo apresenta o VisionPangu, um assistente multimodal compacto de 1,7 bilhão de parâmetros que, ao combinar um codificador de visão derivado do InternVL com o modelo de linguagem OpenPangu e utilizar descrições humanas densas do conjunto de dados DOCCI, alcança desempenho competitivo na geração de legendas detalhadas e semanticamente coerentes sem depender de escalas de modelo agressivas.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Este artigo apresenta um novo modelo de câmera que estende a projeção ortográfica com um parâmetro de contração para capturar distorções de perspectiva em imagens de rostos em close-up, permitindo o ajuste fino de modelos 3DMM existentes para gravações com câmeras montadas na cabeça.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

O artigo apresenta o BiEvLight, um framework de aprendizado em dois níveis que otimiza colaborativamente a remoção de ruído em eventos e o aprimoramento de imagens em baixa luminosidade, tratando a denoising como um problema de otimização guiado pela tarefa de aprimoramento para superar o acoplamento de ruído e superar os métodos mais avançados.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

← Anterior Próximo →