cs.CV artigos | Gist.Science

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabalho apresenta o PHASE-Net, um modelo leve e teoricamente fundamentado em equações físicas para medição de fotopletismografia remota (rPPG) que supera os desafios de movimento e iluminação através de componentes inovadores como o Trocador Axial de FLOPs Zero, Filtro Espacial Adaptativo e TCN com Portão, alcançando desempenho de ponta e eficiência para implantação prática.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Este trabalho apresenta o LMOD+, um novo benchmark multimodal em oftalmologia expandido com 32.633 instâncias e avaliações abrangentes de modelos de linguagem grandes multimodais, visando impulsionar o desenvolvimento de IA para diagnóstico e triagem de doenças oculares que ameaçam a visão.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

O artigo apresenta o REVEL, uma nova tarefa de manipulação interativa de vídeos em streaming, e propõe o DragStream, uma abordagem sem treinamento que corrige a deriva de distribuição latente e mitiga interferências contextuais para permitir a edição precisa de qualquer elemento em qualquer momento dentro de modelos de difusão autoregressivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

O artigo apresenta o AR-Drag, o primeiro modelo de difusão autoregressivo aprimorado por aprendizado por reforço para geração de vídeo em tempo real a partir de imagens, que supera os desafios de latência e qualidade ao permitir controle preciso de movimentos diversos com apenas 1,3 bilhão de parâmetros.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisão de escopo sistemática analisa o estado da arte de modelos generativos profundos não supervisionados para detecção de anomalias em neuroimagem, destacando seu potencial para localizar patologias sem necessidade de anotações detalhadas, ao mesmo tempo em que identifica desafios como a heterogeneidade metodológica e a necessidade de validação externa mais robusta.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este artigo apresenta o framework CMR (Repetição Multimodal Baseada em Colisão) para o novo desafio de Segmentação Audiovisual Contínua (CAVS), abordando eficazmente a deriva semântica e a confusão por co-ocorrência em cenários de aprendizado contínuo de classes finas através de estratégias inovadoras de seleção e repetição de amostras.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

O artigo apresenta o Dream4Drive, um novo framework de geração de dados sintéticos que utiliza modelos de mundo de direção e um conjunto de dados 3D (DriveObj3D) para criar vídeos realistas e multi-visão, demonstrando melhorias significativas no desempenho de modelos de percepção autônoma, especialmente em casos extremos, superando as limitações de métodos anteriores que dependiam de estratégias de treinamento ineficientes.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

O artigo apresenta o MoE-GS, um novo quadro unificado para a reconstrução de cenas dinâmicas via Gaussian Splatting que integra múltiplos especialistas especializados por meio de um roteador de pixels consciente de volume para superar as limitações de métodos existentes, oferecendo também estratégias de otimização para mitigar o custo computacional.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

O artigo apresenta o AnyPcc, um framework universal de compressão de nuvens de pontos que supera as limitações de generalização existentes ao combinar um Modelo de Contexto Universal robusto a diversas densidades com uma estratégia de Ajuste Fino Adaptativo à Instância (IAFT), alcançando resultados state-of-the-art em diversos conjuntos de dados reais com baixa complexidade.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Este artigo propõe um método automatizado de contagem de pragas em armadilhas aquáticas que utiliza um sistema robótico de agitação ativa e um controle em malha fechada baseado na confiança da contagem para mitigar oclusões, reduzir erros de contagem e otimizar o tempo de execução em comparação com métodos estáticos e de velocidade constante.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

O artigo apresenta o CountFormer, um framework que substitui o codificador de imagem por um modelo de visão auto-supervisionado (DINOv2) para melhorar a consistência estrutural no contagem de objetos sem exemplares, demonstrando que representações de base podem reduzir erros de supercontagem em objetos complexos, embora os resultados quantitativos no benchmark FSC-147 permaneçam competitivos com abordagens anteriores.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

O artigo apresenta o SAGE, uma abordagem zero-shot que utiliza orientação estrutural e síntese generativa para criar transições de vídeo visualmente coerentes e consistentes entre clipes diversos, superando métodos clássicos e generativos existentes sem a necessidade de ajuste fino ou dados de treinamento específicos.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Este artigo propõe uma abordagem forense para detectar imagens geradas por IA analisando o comportamento de "recuperação" (snap-back) das imagens quando submetidas a reconstrução por modelos de difusão, alcançando uma alta precisão na distinção entre fotografias autênticas e sintéticas mesmo sob distorções comuns.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Este artigo apresenta o "Jr. AI Scientist", um sistema autônomo de ponta que simula o fluxo de trabalho de um pesquisador iniciante para gerar contribuições científicas válidas a partir de artigos de base, demonstrando desempenho superior em avaliações automatizadas enquanto identifica riscos e limitações críticos para a aplicação futura desses sistemas.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Este artigo apresenta o MUGSQA, um novo método de avaliação de qualidade baseado em múltiplas incertezas, juntamente com um dataset e benchmarks projetados para superar os desafios na avaliação perceptiva de objetos 3D reconstruídos por meio de Gaussian Splatting.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

O artigo apresenta o CountOCC, um novo framework de contagem amodal que supera as limitações de métodos atuais em cenários de oclusão ao reconstruir hierarquicamente as características de objetos ocultos através de orientação multimodal e de um objetivo de equivalência visual, alcançando desempenho superior de última geração em conjuntos de dados ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Este trabalho propõe um novo método de ataque adversarial para redes hiperbólicas, chamado Angular Gradient Sign, que explora as propriedades geométricas do espaço hiperbólico ao aplicar perturbações apenas na direção angular (semântica) do gradiente, resultando em taxas de engano superiores e revelando vulnerabilidades específicas dessas representações hierárquicas.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

O artigo apresenta o Video2Layout, um framework que supera as limitações dos mapas cognitivos baseados em grades ao reconstruir layouts espaciais metricamente fundamentados a partir de coordenadas contínuas de limites de objetos, resultando em um modelo (V2LO-7B) que demonstra melhorias significativas no raciocínio espacial em comparação com métodos tradicionais.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Este artigo apresenta a MOMNet, uma rede inovadora de correspondência multi-ordem que supera as limitações de alinhamento espacial entre RGB e profundidade em cenários reais, utilizando mecanismos de correspondência e agregação multi-ordem para alcançar super-resolução de profundidade de alta qualidade e robustez.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

O artigo apresenta o DualMindVLM, um modelo de linguagem visual que implementa um mecanismo de pensamento dual (rápido e lento) adaptado via GRPO, permitindo a seleção automática ou manual do modo de raciocínio com base na complexidade da tarefa para alcançar desempenho de ponta com maior eficiência de tokens.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

← Anterior Próximo →