cs.CV artigos | Gist.Science

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

O artigo propõe o método AOT (Token Anchors via Local and Global Optimal Transport), uma abordagem sem treinamento que otimiza a eficiência dos Modelos de Linguagem Grande para Vídeo ao reduzir tokens redundantes agregando contextos locais e globais através de transporte ótimo, preservando assim a fidelidade visual e temporal em benchmarks de vídeos curtos e longos.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

O artigo apresenta o UniTalking, um framework unificado de difusão de ponta a ponta que utiliza blocos de transformador multimodal para gerar retratos falantes de alta fidelidade com sincronização labial precisa e clonagem de voz personalizada, superando as abordagens de código aberto existentes.

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

O artigo apresenta o SeaVIS, o primeiro framework online para segmentação de instâncias áudio-visuais que supera as limitações dos métodos atuais ao utilizar fusão causal de atenção cruzada e aprendizado contrastivo guiado por áudio para associar e rastrear instâncias sonoras em fluxos de vídeo contínuos, garantindo precisão mesmo quando os objetos estão silenciosos.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

O artigo apresenta o LinkVLA, uma nova arquitetura para direção autônoma que unifica a compreensão e a geração de linguagem e ação através de um código compartilhado e de uma tarefa auxiliar de entendimento, resultando em maior alinhamento semântico e uma redução de 86% no tempo de inferência graças a um método de geração de duas etapas.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudo demonstra que a utilidade da mistura global de tokens em restauração de MRI é dependente da tarefa, sendo menos vantajosa em reconstrução acelerada e super-resolução devido às restrições físicas e de dados, mas superior em tarefas de remoção de ruído heterocedástico que exigem estimativa espacial de confiabilidade.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Este artigo apresenta o Deepfake Forensics Adapter (DFA), uma rede de duplo fluxo inovadora que integra um modelo CLIP pré-treinado com adaptadores de características globais, um fluxo de anomalias locais e um classificador de fusão interativa para alcançar detecção generalizável e de ponta de deepfakes, superando métodos anteriores em benchmarks desafiadores como o DFDC.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

O artigo apresenta o VidDoS, um ataque universal de negação de serviço que explora mecanismos de agregação temporal em Modelos de Linguagem de Vídeo (Video-LLMs) para induzir uma expansão de tokens e latência de inferência massivas, comprometendo aplicações críticas como a condução autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

O artigo apresenta o MM-Mem, uma arquitetura de memória multimodal piramidal inspirada na Teoria do Rastro Fuzzy e otimizada via um gargalo de informação semântica, que distila progressivamente detalhes perceptivos em esquemas semânticos para superar as limitações de janelas de contexto e mecanismos estáticos em agentes de vídeo de longo horizonte.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

O artigo apresenta o UltraStar, um modelo inovador que utiliza um grafo estrela semântico para transformar a navegação de sondas em ecocardiografia de uma regressão de trajetória ruidosa para uma localização global baseada em âncoras, superando as limitações dos métodos existentes ao modelar eficientemente o histórico de exploração e melhorar a precisão em sequências longas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

O artigo apresenta o WildCross, um novo benchmark de grande escala que preenche a lacuna de dados em ambientes naturais não estruturados ao fornecer mais de 476 mil quadros RGB com anotações de profundidade métrica e poses 6DoF sincronizadas com mapas LiDAR, visando impulsionar pesquisas em reconhecimento de lugares e estimativa de profundidade para robótica.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

Este artigo apresenta o SCATR, um novo modelo de rastreamento baseado em atenção para LiDAR que utiliza as estratégias de treinamento "Second Chance Assignment" e "Track Query Dropout" para mitigar a supressão de novas instâncias, alcançando desempenho superior ao estado da arte e fechando a lacuna de performance entre os métodos de rastreamento baseados em atenção e detecção.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

O artigo apresenta o ATA, uma nova estrutura de raciocínio implícito e livre de treinamento que aprimora a eficiência e o desempenho dos modelos Visão-Linguagem-Ação ao integrar mapas de atenção e regiões de interesse baseadas em ações, eliminando a necessidade de anotações adicionais ou retreinamento.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

O artigo apresenta o RadioGS, um novo framework de renderização inversa baseado em surfels gaussianos que utiliza consistência radiométrica para superar as limitações na modelagem de iluminação indireta e permite reluzimento eficiente em novos cenários.

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

O artigo apresenta o PhotoBench, o primeiro benchmark construído a partir de álbuns pessoais autênticos para superar as limitações da correspondência visual tradicional e promover a recuperação de fotos baseada em raciocínio de intenção personalizada e fusão de múltiplas fontes de dados.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Este artigo introduz um framework teórico de taxa-distorção que utiliza assinaturas geométricas (inclinação e curvatura) para analisar e comparar as trocas entre precisão e robustez na generalização visual, revelando que, embora humanos e redes neurais sigam princípios comuns de compressão, os sistemas biológicos exibem trade-offs mais flexíveis e menos frágeis do que os modelos artificiais modernos.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Este artigo propõe o framework DTI-UIE, uma abordagem de aprimoramento de imagens subaquáticas inspirada em tarefas downstream que, combinando uma rede de dois ramos com atenção orientada a tarefas, uma perda perceptiva específica e um novo conjunto de dados construído automaticamente, supera os métodos tradicionais focados apenas na percepção humana ao otimizar a qualidade das imagens para reconhecimento de objetos e segmentação semântica.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Este artigo propõe a representação de função tensorial contínua fundamentada em operadores neurais (NO-CTR), que supera as limitações dos métodos discretos ao introduzir operadores de modo- $n$ não lineares e contínuos para uma representação mais fiel de dados complexos, demonstrando superioridade em tarefas de completamento de dados multidimensionais em diversos cenários.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

O artigo apresenta o FireRed-OCR, um framework inovador que transforma modelos VLMs gerais em especialistas em OCR estrutural de alta performance através de uma fábrica de dados "Geometria + Semântica" e uma estratégia de treinamento progressivo de três etapas, alcançando resultados state-of-the-art no benchmark OmniDocBench v1.5.

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Este trabalho apresenta o Tiny-DroNeRF, um modelo leve de Campos Neurais de Radiância (NeRF) otimizado para microcontroladores de baixo consumo em nano-drones, que utiliza aprendizado federado para superar as restrições de memória e computação, permitindo a reconstrução 3D densa de ambientes com alta eficiência.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabalho apresenta um método de previsão de trajetória de drones baseado exclusivamente em câmeras de eventos, que extrai a velocidade de rotação das hélices dos dados brutos e a integra em um filtro de Kalman consciente de RPM, superando abordagens de aprendizado e filtros tradicionais na previsão de curto e médio prazo sem depender de imagens RGB ou dados de treinamento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

← Anterior Próximo →