cs.CV artigos | Gist.Science

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

O artigo apresenta o SeaVIS, o primeiro framework online para segmentação de instâncias áudio-visuais que supera as limitações dos métodos atuais ao utilizar fusão causal de atenção cruzada e aprendizado contrastivo guiado por áudio para associar e rastrear instâncias sonoras em fluxos de vídeo contínuos, garantindo precisão mesmo quando os objetos estão silenciosos.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

O artigo apresenta o LinkVLA, uma nova arquitetura para direção autônoma que unifica a compreensão e a geração de linguagem e ação através de um código compartilhado e de uma tarefa auxiliar de entendimento, resultando em maior alinhamento semântico e uma redução de 86% no tempo de inferência graças a um método de geração de duas etapas.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudo demonstra que a utilidade da mistura global de tokens em restauração de MRI é dependente da tarefa, sendo menos vantajosa em reconstrução acelerada e super-resolução devido às restrições físicas e de dados, mas superior em tarefas de remoção de ruído heterocedástico que exigem estimativa espacial de confiabilidade.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Este artigo apresenta o Deepfake Forensics Adapter (DFA), uma rede de duplo fluxo inovadora que integra um modelo CLIP pré-treinado com adaptadores de características globais, um fluxo de anomalias locais e um classificador de fusão interativa para alcançar detecção generalizável e de ponta de deepfakes, superando métodos anteriores em benchmarks desafiadores como o DFDC.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

O artigo apresenta o VidDoS, um ataque universal de negação de serviço que explora mecanismos de agregação temporal em Modelos de Linguagem de Vídeo (Video-LLMs) para induzir uma expansão de tokens e latência de inferência massivas, comprometendo aplicações críticas como a condução autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

O artigo apresenta o MM-Mem, uma arquitetura de memória multimodal piramidal inspirada na Teoria do Rastro Fuzzy e otimizada via um gargalo de informação semântica, que distila progressivamente detalhes perceptivos em esquemas semânticos para superar as limitações de janelas de contexto e mecanismos estáticos em agentes de vídeo de longo horizonte.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

O artigo apresenta o UltraStar, um modelo inovador que utiliza um grafo estrela semântico para transformar a navegação de sondas em ecocardiografia de uma regressão de trajetória ruidosa para uma localização global baseada em âncoras, superando as limitações dos métodos existentes ao modelar eficientemente o histórico de exploração e melhorar a precisão em sequências longas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

O artigo apresenta o WildCross, um novo benchmark de grande escala que preenche a lacuna de dados em ambientes naturais não estruturados ao fornecer mais de 476 mil quadros RGB com anotações de profundidade métrica e poses 6DoF sincronizadas com mapas LiDAR, visando impulsionar pesquisas em reconhecimento de lugares e estimativa de profundidade para robótica.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

Este artigo apresenta o SCATR, um novo modelo de rastreamento baseado em atenção para LiDAR que utiliza as estratégias de treinamento "Second Chance Assignment" e "Track Query Dropout" para mitigar a supressão de novas instâncias, alcançando desempenho superior ao estado da arte e fechando a lacuna de performance entre os métodos de rastreamento baseados em atenção e detecção.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

O artigo apresenta o ATA, uma nova estrutura de raciocínio implícito e livre de treinamento que aprimora a eficiência e o desempenho dos modelos Visão-Linguagem-Ação ao integrar mapas de atenção e regiões de interesse baseadas em ações, eliminando a necessidade de anotações adicionais ou retreinamento.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

O artigo apresenta o RadioGS, um novo framework de renderização inversa baseado em surfels gaussianos que utiliza consistência radiométrica para superar as limitações na modelagem de iluminação indireta e permite reluzimento eficiente em novos cenários.

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

O artigo apresenta o PhotoBench, o primeiro benchmark construído a partir de álbuns pessoais autênticos para superar as limitações da correspondência visual tradicional e promover a recuperação de fotos baseada em raciocínio de intenção personalizada e fusão de múltiplas fontes de dados.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Este artigo introduz um framework teórico de taxa-distorção que utiliza assinaturas geométricas (inclinação e curvatura) para analisar e comparar as trocas entre precisão e robustez na generalização visual, revelando que, embora humanos e redes neurais sigam princípios comuns de compressão, os sistemas biológicos exibem trade-offs mais flexíveis e menos frágeis do que os modelos artificiais modernos.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Este artigo propõe o framework DTI-UIE, uma abordagem de aprimoramento de imagens subaquáticas inspirada em tarefas downstream que, combinando uma rede de dois ramos com atenção orientada a tarefas, uma perda perceptiva específica e um novo conjunto de dados construído automaticamente, supera os métodos tradicionais focados apenas na percepção humana ao otimizar a qualidade das imagens para reconhecimento de objetos e segmentação semântica.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Este artigo propõe a representação de função tensorial contínua fundamentada em operadores neurais (NO-CTR), que supera as limitações dos métodos discretos ao introduzir operadores de modo- $n$ não lineares e contínuos para uma representação mais fiel de dados complexos, demonstrando superioridade em tarefas de completamento de dados multidimensionais em diversos cenários.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

O artigo apresenta o FireRed-OCR, um framework inovador que transforma modelos VLMs gerais em especialistas em OCR estrutural de alta performance através de uma fábrica de dados "Geometria + Semântica" e uma estratégia de treinamento progressivo de três etapas, alcançando resultados state-of-the-art no benchmark OmniDocBench v1.5.

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Este trabalho apresenta o Tiny-DroNeRF, um modelo leve de Campos Neurais de Radiância (NeRF) otimizado para microcontroladores de baixo consumo em nano-drones, que utiliza aprendizado federado para superar as restrições de memória e computação, permitindo a reconstrução 3D densa de ambientes com alta eficiência.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabalho apresenta um método de previsão de trajetória de drones baseado exclusivamente em câmeras de eventos, que extrai a velocidade de rotação das hélices dos dados brutos e a integra em um filtro de Kalman consciente de RPM, superando abordagens de aprendizado e filtros tradicionais na previsão de curto e médio prazo sem depender de imagens RGB ou dados de treinamento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este artigo propõe uma representação volumétrica 3D de Campo de Junções (3D FoJ), um prior estrutural livre de treinamento e robusto a ruídos que supera métodos clássicos e neurais na reconstrução e remoção de ruído de problemas inversos volumétricos com baixa relação sinal-ruído, como tomografia computadorizada de baixa dose, tomografia eletrônica criogênica e nuvens de pontos de lidar.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artigo propõe e avalia uma nova técnica de aumento de dados chamada C2GMA, que utiliza CycleGANs para traduzir imagens visíveis para o domínio não visível e gerar exemplos interpolados de classes mistas, resultando em uma melhoria significativa na precisão da classificação de imagens de Radar de Abertura Sintética (SAR) com dados limitados.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

← Anterior Próximo →