SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

O artigo apresenta o SeaVIS, o primeiro framework online para segmentação de instâncias áudio-visuais que supera as limitações dos métodos atuais ao utilizar fusão causal de atenção cruzada e aprendizado contrastivo guiado por áudio para associar e rastrear instâncias sonoras em fluxos de vídeo contínuos, garantindo precisão mesmo quando os objetos estão silenciosos.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudo demonstra que a utilidade da mistura global de tokens em restauração de MRI é dependente da tarefa, sendo menos vantajosa em reconstrução acelerada e super-resolução devido às restrições físicas e de dados, mas superior em tarefas de remoção de ruído heterocedástico que exigem estimativa espacial de confiabilidade.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Este artigo apresenta o Deepfake Forensics Adapter (DFA), uma rede de duplo fluxo inovadora que integra um modelo CLIP pré-treinado com adaptadores de características globais, um fluxo de anomalias locais e um classificador de fusão interativa para alcançar detecção generalizável e de ponta de deepfakes, superando métodos anteriores em benchmarks desafiadores como o DFDC.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

O artigo apresenta o MM-Mem, uma arquitetura de memória multimodal piramidal inspirada na Teoria do Rastro Fuzzy e otimizada via um gargalo de informação semântica, que distila progressivamente detalhes perceptivos em esquemas semânticos para superar as limitações de janelas de contexto e mecanismos estáticos em agentes de vídeo de longo horizonte.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

O artigo apresenta o UltraStar, um modelo inovador que utiliza um grafo estrela semântico para transformar a navegação de sondas em ecocardiografia de uma regressão de trajetória ruidosa para uma localização global baseada em âncoras, superando as limitações dos métodos existentes ao modelar eficientemente o histórico de exploração e melhorar a precisão em sequências longas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

O artigo apresenta o WildCross, um novo benchmark de grande escala que preenche a lacuna de dados em ambientes naturais não estruturados ao fornecer mais de 476 mil quadros RGB com anotações de profundidade métrica e poses 6DoF sincronizadas com mapas LiDAR, visando impulsionar pesquisas em reconhecimento de lugares e estimativa de profundidade para robótica.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

Este artigo apresenta o SCATR, um novo modelo de rastreamento baseado em atenção para LiDAR que utiliza as estratégias de treinamento "Second Chance Assignment" e "Track Query Dropout" para mitigar a supressão de novas instâncias, alcançando desempenho superior ao estado da arte e fechando a lacuna de performance entre os métodos de rastreamento baseados em atenção e detecção.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

Rate-Distortion Signatures of Generalization and Information Trade-offs

Este artigo introduz um framework teórico de taxa-distorção que utiliza assinaturas geométricas (inclinação e curvatura) para analisar e comparar as trocas entre precisão e robustez na generalização visual, revelando que, embora humanos e redes neurais sigam princípios comuns de compressão, os sistemas biológicos exibem trade-offs mais flexíveis e menos frágeis do que os modelos artificiais modernos.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Este artigo propõe o framework DTI-UIE, uma abordagem de aprimoramento de imagens subaquáticas inspirada em tarefas downstream que, combinando uma rede de dois ramos com atenção orientada a tarefas, uma perda perceptiva específica e um novo conjunto de dados construído automaticamente, supera os métodos tradicionais focados apenas na percepção humana ao otimizar a qualidade das imagens para reconhecimento de objetos e segmentação semântica.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Este artigo propõe a representação de função tensorial contínua fundamentada em operadores neurais (NO-CTR), que supera as limitações dos métodos discretos ao introduzir operadores de modo-nn não lineares e contínuos para uma representação mais fiel de dados complexos, demonstrando superioridade em tarefas de completamento de dados multidimensionais em diversos cenários.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabalho apresenta um método de previsão de trajetória de drones baseado exclusivamente em câmeras de eventos, que extrai a velocidade de rotação das hélices dos dados brutos e a integra em um filtro de Kalman consciente de RPM, superando abordagens de aprendizado e filtros tradicionais na previsão de curto e médio prazo sem depender de imagens RGB ou dados de treinamento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este artigo propõe uma representação volumétrica 3D de Campo de Junções (3D FoJ), um prior estrutural livre de treinamento e robusto a ruídos que supera métodos clássicos e neurais na reconstrução e remoção de ruído de problemas inversos volumétricos com baixa relação sinal-ruído, como tomografia computadorizada de baixa dose, tomografia eletrônica criogênica e nuvens de pontos de lidar.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artigo propõe e avalia uma nova técnica de aumento de dados chamada C2GMA, que utiliza CycleGANs para traduzir imagens visíveis para o domínio não visível e gerar exemplos interpolados de classes mistas, resultando em uma melhoria significativa na precisão da classificação de imagens de Radar de Abertura Sintética (SAR) com dados limitados.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG