cs.CV artigos | Gist.Science

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Este artigo apresenta um novo framework de detecção de anomalias em vídeo semi-supervisionado que utiliza Modelos de Linguagem Multimodais (MLLMs) para gerar descrições textuais de interações entre objetos, superando as limitações de métodos existentes ao detectar anomalias complexas com alto nível de explicabilidade e desempenho de ponta.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

From Volume Rendering to 3D Gaussian Splatting: Theory and Applications

Este tutorial oferece uma visão abrangente da evolução da reconstrução 3D a partir da renderização volumétrica até o 3D Gaussian Splatting (3DGS), detalhando sua teoria, abordando suas limitações atuais e explorando suas diversas aplicações em síntese de novas visualizações, reconstrução de superfícies e geração de conteúdo.

Vitor Pereira Matias, Daniel Perazzo, Vinicius Silva + 4 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

O artigo apresenta o "Speculative Verdict" (SV), uma estrutura sem treinamento que combina múltiplos modelos VLM leves como especialistas rascunho com um modelo de veredito robusto para melhorar o raciocínio visual em imagens densamente informativas, alcançando ganhos de precisão e eficiência em benchmarks desafiadores.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

O artigo apresenta o TokenCLIP, um framework de aprendizado de prompt token a token que utiliza transporte ótimo para alinhar dinamicamente tokens visuais a subespaços textuais ortogonais, permitindo uma detecção de anomalias zero-shot mais precisa e eficiente ao capturar semânticas variadas em objetos não vistos.

Qihang Zhou, Binbin Gao, Guansong Pang + 3 more2026-03-02💻 cs

MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

Este trabalho apresenta o MMSD3.0, um novo benchmark composto exclusivamente por amostras de múltiplas imagens para detecção de sarcasmo multimodal em cenários reais, juntamente com o modelo CIRM, que alcança desempenho state-of-the-art ao modelar conexões inter-imagens e integrar texto e imagem de forma guiada por relevância.

Haochen Zhao, Yuyao Kong, Yongxiu Xu + 4 more2026-03-02💻 cs

Enhancing CLIP Robustness via Cross-Modality Alignment

O artigo propõe o COLA, um framework livre de treinamento baseado em transporte ótimo que restaura o alinhamento global e a consistência estrutural local entre as representações de imagem e texto para mitigar a vulnerabilidade do CLIP a perturbações adversariais, resultando em ganhos significativos de robustez em classificações zero-shot.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Este artigo apresenta a Agregação Atenta de Recursos (AFA), um mecanismo de pooling leve que permite a políticas visuomotoras treinadas com representações visuais pré-treinadas ignorar distrações irrelevantes e focar em pistas visuais essenciais, resultando em maior robustez a perturbações visuais sem necessidade de aumento de dados ou ajuste fino.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

Score-Regularized Joint Sampling with Importance Weights for Flow Matching

Este artigo propõe um método de amostragem conjunta regularizada por pontuação com pesos de importância para modelos de Flow Matching, visando gerar amostras diversas e de alta qualidade que permitam estimativas precisas de expectativas sob orçamentos de amostragem limitados.

Xinshuang Liu, Runfa Blark Li, Shaoxiu Wei + 1 more2026-03-02🤖 cs.AI

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Este estudo demonstra que, na classificação de tumores cerebrais em ressonância magnética com dados limitados, arquiteturas de CNN de propósito geral pré-treinadas (como ConvNeXt-Tiny) superam modelos pré-treinados especificamente em dados médicos (como RadImageNet DenseNet121), indicando que o pré-treinamento em domínios diversificados pode ser mais eficaz para tarefas diagnósticas especializadas.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

O artigo apresenta o Q-Save, um novo benchmark holístico e um modelo unificado que avalia a qualidade de vídeos gerados por IA em três dimensões (qualidade visual, dinâmica e alinhamento texto-vídeo) simultaneamente, fornecendo pontuações precisas e explicações atribuídas através de uma estratégia de treinamento avançada.

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

O artigo apresenta o SocialNav, um modelo fundamental treinado com um novo conjunto de dados em larga escala e um pipeline de aprendizado por reforço inovador (SAFE-GRPO) para superar os desafios da navegação corporal, alcançando desempenho superior na adesão às normas sociais e na eficiência do trajeto.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

O artigo apresenta o SpecTemp, um framework de raciocínio temporal especulativo baseado em aprendizado por reforço que utiliza um design de dois modelos cooperativos para decoplar a percepção temporal do raciocínio, permitindo uma compreensão eficiente de vídeos longos com alta precisão e menor custo computacional.

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

O artigo propõe o TARDis, um novo framework consciente da física que utiliza a disjunção de representações atenuadas pelo tempo para superar a falta de fases de contraste em tomografias computadorizadas, permitindo a segmentação e classificação precisa de tumores ao modelar a dinâmica hemodinâmica contínua mesmo com dados incompletos.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

Este artigo apresenta uma abordagem de detecção de imagens geradas por IA baseada em aprendizado auto-supervisionado que utiliza metadados de câmera (EXIF) para extrair características intrínsecas de fotografias reais, alcançando alta generalização e robustez em comparação com métodos existentes.

Nan Zhong, Mian Zou, Yiran Xu + 4 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

O artigo apresenta o FRIEDA, um novo benchmark que avalia a capacidade de raciocínio cartográfico multi-etapa em Modelos de Linguagem e Visão de Grande Escala (LVLMs), revelando que, apesar dos avanços recentes, os modelos atuais têm desempenho significativamente inferior ao humano na interpretação de relações espaciais complexas em mapas.

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

O artigo apresenta o SHARP, um método inovador que sintetiza vistas fotorealistas a partir de uma única imagem em menos de um segundo, estabelecendo um novo estado da arte com generalização zero-shot e uma redução significativa no tempo de síntese e nos erros de qualidade visual.

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

Este trabalho propõe um novo framework para o Splatting 3D baseado em eventos que desacopla a renderização geométrica e radiométrica, alcançando desempenho de ponta em reconstruções 3D precisas e rápidas sem a necessidade de inicialização ou modelos pré-treinados.

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

O artigo apresenta o ColaVLA, um framework unificado de visão-linguagem-ação que supera as limitações de latência e desalinhamento dos planejadores baseados em modelos de linguagem visual ao transferir o raciocínio cognitivo para um espaço latente unificado e gerar trajetórias hierárquicas e paralelas em uma única passagem, alcançando desempenho de ponta no benchmark nuScenes.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Este trabalho apresenta o WMReward, uma abordagem de alinhamento em tempo de inferência que utiliza um modelo de mundo latente (VJEPA-2) como recompensa para orientar múltiplas trajetórias de geração, resultando em uma melhoria substancial na plausibilidade física de vídeos gerados e na conquista do primeiro lugar no desafio PhysicsIQ do ICCV 2025.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

O artigo apresenta o CPiRi, um modelo inovador para previsão de séries temporais multivariadas que combina uma arquitetura de desacoplamento espaço-temporal com uma estratégia de regularização de permutação para aprender dependências entre canais de forma invariante à ordem, superando as limitações de modelos dependentes ou independentes de canais e demonstrando forte generalização indutiva e eficiência prática.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

← Anterior Próximo →