cs.CV artigos | Gist.Science

Agentic Very Long Video Understanding

O artigo apresenta o EGAgent, um framework agênico inovador baseado em grafos de cena de entidades que supera as limitações de janelas de contexto existentes para permitir raciocínio composicional e multi-hop em streams de vídeo egocêntrico contínuo de longa duração, alcançando desempenho state-of-the-art em tarefas de compreensão longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

O artigo propõe o mecanismo MiTA Attention, uma abordagem eficiente que unifica métodos de atenção existentes e reduz o custo computacional em sequências longas comprimindo a matriz de pesos rápidos e utilizando uma estratégia de roteamento baseada nas top-k ativações de consultas âncora.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

O artigo apresenta o DDP-WM, um modelo de mundo eficiente que utiliza a previsão de dinâmicas desentrelaçadas para decompor a evolução do estado em interações físicas primárias e atualizações de contexto secundárias, alcançando uma aceleração de inferência de 9 vezes e melhorias significativas no sucesso de planejamento em comparação com modelos densos baseados em Transformers.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

O artigo apresenta o Rolling Sink, uma solução sem treinamento que supera a lacuna entre o tempo de treinamento limitado e o teste de duração ilimitada em modelos de difusão de vídeo autoregressivos, permitindo a geração de vídeos ultra-longos e coerentes a partir de clipes curtos.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Este artigo propõe um quadro de aprendizado ativo guiado por explicabilidade para análise de imagens médicas que, ao combinar incerteza de classificação e desalinhamento de atenção com regiões de interesse definidas por especialistas, seleciona amostras estrategicamente para melhorar tanto o desempenho preditivo quanto a interpretabilidade clínica com eficiência de dados.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

O artigo apresenta o Pailitao-VL, um sistema de busca multimodal industrial em tempo real que supera limitações de granularidade e ruído ao adotar uma nova abordagem de reconhecimento de ID absoluto para embeddings e uma política de reclassificação comparativa e calibrada, resultando em desempenho superior e impacto comercial significativo na plataforma de comércio eletrônico do Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

O artigo apresenta o DeltaGateNet, um novo framework que melhora o reconhecimento de fadiga na direção baseado em EEG ao modelar explicitamente a dinâmica temporal bidirecional e assimétrica dos sinais neurais, alcançando desempenho superior e generalizável em conjuntos de dados públicos.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

O artigo apresenta o EA-Swin, um modelo baseado no Swin Transformer que detecta vídeos gerados por IA de forma independente de embeddings, alcançando alta precisão e generalização em um novo conjunto de dados abrangente, superando significativamente os métodos existentes.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

O CityGuard é um framework baseado em transformadores que utiliza aprendizado de métricas adaptativo, atenção condicional espacial e mapas de incorporação com privacidade diferencial para permitir a busca de identidade privada e resiliente a vieses em câmeras urbanas distribuídas, garantindo precisão na reidentificação sem compartilhar imagens brutas.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

O artigo apresenta o CARE, um modelo fundamental para patologia computacional que utiliza uma estratégia de pré-treinamento em duas etapas com orientação molecular para segmentar automaticamente imagens de lâminas inteiras em regiões adaptativas e morfologicamente relevantes, alcançando desempenho superior em diversas tarefas com apenas uma fração dos dados de treinamento utilizados por modelos existentes.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

O artigo apresenta o MasqLoRA, um novo framework de ataque que explora a flexibilidade dos adaptadores LoRA em modelos de difusão texto-para-imagem para injetar backdoors ocultos que ativam comportamentos maliciosos sob gatilhos textuais específicos, mantendo-se indetectável em condições normais e revelando uma vulnerabilidade crítica na cadeia de suprimentos de IA.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

O artigo apresenta o RobustVisRAG, um framework de geração aumentada por recuperação baseada em visão que utiliza um guia causal para separar efetivamente semântica de degradações visuais, melhorando significativamente o desempenho em documentos distorcidos sem comprometer a precisão em entradas limpas.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

O artigo apresenta o LFG, um modelo de pré-treinamento autônomo sem rótulos que utiliza vídeos de direção não estruturados da internet e um mecanismo de ensino multi-modal para aprender representações unificadas de geometria e movimento, superando métodos existentes em tarefas de planejamento e previsão sem a necessidade de dados anotados ou LiDAR.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

O artigo apresenta o Diffusion Probe, um framework eficiente e independente de modelo que prevê a qualidade final de imagens geradas por difusão texto-para-imagem analisando as distribuições de atenção cruzada em estágios iniciais, permitindo decisões antecipadas que reduzem custos computacionais e melhoram a qualidade do resultado.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

O artigo apresenta o DiffusionHarmonizer, um framework de aprimoramento generativo online que utiliza um aprimorador condicionado temporalmente derivado de modelos de difusão para transformar renderizações de reconstruções neurais imperfeitas em saídas fotorealistas e temporalmente consistentes, corrigindo artefatos e harmonizando a iluminação para simulações robóticas escaláveis.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

O UFO-4D é um framework unificado e feedforward que reconstrói representações 4D densas e explícitas a partir de apenas duas imagens não posicionadas, estimando simultaneamente geometria 3D, movimento e pose da câmera com alta precisão ao aproveitar a renderização diferenciável de múltiplos sinais a partir de um único conjunto de Gaussianas 3D dinâmicas.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

O artigo apresenta o Dr. Seg, um framework simples e plug-and-play baseado em GRPO que supera as limitações da transferência direta de paradigmas de raciocínio para percepção visual em Modelos de Linguagem Visuais, introduzindo mecanismos de confirmação e recompensas ranqueadas por distribuição para melhorar o desempenho em tarefas complexas como a segmentação.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

O artigo propõe o AlignVAR, um novo framework de super-resolução de imagem baseado em autoregressão visual que supera desafios de consistência global e acúmulo de erros através de componentes inovadores de coerência espacial e restrições hierárquicas, oferecendo resultados de alta fidelidade com inferência significativamente mais rápida e menor complexidade de parâmetros em comparação com métodos baseados em difusão.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

O artigo apresenta o SOLACE, um framework de pós-treinamento para geração de texto-imagem que utiliza recompensas intrínsecas baseadas na autoconfiança do modelo para otimização não supervisionada, resultando em melhorias na geração composicional, renderização de texto e alinhamento, além de mitigar a exploração de recompensas quando combinado com sinais externos.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

O artigo apresenta o Dr. Occ, um framework de previsão de ocupação 3D que utiliza um transformador guiado por profundidade para alinhamento geométrico preciso e um transformador de especialistas guiado por região para lidar com desequilíbrios espaciais, alcançando desempenho superior no benchmark Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

← Anterior Próximo →