PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabalho apresenta o PHASE-Net, um modelo leve e teoricamente fundamentado em equações físicas para medição de fotopletismografia remota (rPPG) que supera os desafios de movimento e iluminação através de componentes inovadores como o Trocador Axial de FLOPs Zero, Filtro Espacial Adaptativo e TCN com Portão, alcançando desempenho de ponta e eficiência para implantação prática.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Este trabalho apresenta o LMOD+, um novo benchmark multimodal em oftalmologia expandido com 32.633 instâncias e avaliações abrangentes de modelos de linguagem grandes multimodais, visando impulsionar o desenvolvimento de IA para diagnóstico e triagem de doenças oculares que ameaçam a visão.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

O artigo apresenta o REVEL, uma nova tarefa de manipulação interativa de vídeos em streaming, e propõe o DragStream, uma abordagem sem treinamento que corrige a deriva de distribuição latente e mitiga interferências contextuais para permitir a edição precisa de qualquer elemento em qualquer momento dentro de modelos de difusão autoregressivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisão de escopo sistemática analisa o estado da arte de modelos generativos profundos não supervisionados para detecção de anomalias em neuroimagem, destacando seu potencial para localizar patologias sem necessidade de anotações detalhadas, ao mesmo tempo em que identifica desafios como a heterogeneidade metodológica e a necessidade de validação externa mais robusta.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este artigo apresenta o framework CMR (Repetição Multimodal Baseada em Colisão) para o novo desafio de Segmentação Audiovisual Contínua (CAVS), abordando eficazmente a deriva semântica e a confusão por co-ocorrência em cenários de aprendizado contínuo de classes finas através de estratégias inovadoras de seleção e repetição de amostras.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

O artigo apresenta o Dream4Drive, um novo framework de geração de dados sintéticos que utiliza modelos de mundo de direção e um conjunto de dados 3D (DriveObj3D) para criar vídeos realistas e multi-visão, demonstrando melhorias significativas no desempenho de modelos de percepção autônoma, especialmente em casos extremos, superando as limitações de métodos anteriores que dependiam de estratégias de treinamento ineficientes.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

O artigo apresenta o MoE-GS, um novo quadro unificado para a reconstrução de cenas dinâmicas via Gaussian Splatting que integra múltiplos especialistas especializados por meio de um roteador de pixels consciente de volume para superar as limitações de métodos existentes, oferecendo também estratégias de otimização para mitigar o custo computacional.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

O artigo apresenta o AnyPcc, um framework universal de compressão de nuvens de pontos que supera as limitações de generalização existentes ao combinar um Modelo de Contexto Universal robusto a diversas densidades com uma estratégia de Ajuste Fino Adaptativo à Instância (IAFT), alcançando resultados state-of-the-art em diversos conjuntos de dados reais com baixa complexidade.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Este artigo propõe um método automatizado de contagem de pragas em armadilhas aquáticas que utiliza um sistema robótico de agitação ativa e um controle em malha fechada baseado na confiança da contagem para mitigar oclusões, reduzir erros de contagem e otimizar o tempo de execução em comparação com métodos estáticos e de velocidade constante.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

O artigo apresenta o CountFormer, um framework que substitui o codificador de imagem por um modelo de visão auto-supervisionado (DINOv2) para melhorar a consistência estrutural no contagem de objetos sem exemplares, demonstrando que representações de base podem reduzir erros de supercontagem em objetos complexos, embora os resultados quantitativos no benchmark FSC-147 permaneçam competitivos com abordagens anteriores.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Este artigo apresenta o "Jr. AI Scientist", um sistema autônomo de ponta que simula o fluxo de trabalho de um pesquisador iniciante para gerar contribuições científicas válidas a partir de artigos de base, demonstrando desempenho superior em avaliações automatizadas enquanto identifica riscos e limitações críticos para a aplicação futura desses sistemas.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Counting Through Occlusion: Framework for Open World Amodal Counting

O artigo apresenta o CountOCC, um novo framework de contagem amodal que supera as limitações de métodos atuais em cenários de oclusão ao reconstruir hierarquicamente as características de objetos ocultos através de orientação multimodal e de um objetivo de equivalência visual, alcançando desempenho superior de última geração em conjuntos de dados ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Este trabalho propõe um novo método de ataque adversarial para redes hiperbólicas, chamado Angular Gradient Sign, que explora as propriedades geométricas do espaço hiperbólico ao aplicar perturbações apenas na direção angular (semântica) do gradiente, resultando em taxas de engano superiores e revelando vulnerabilidades específicas dessas representações hierárquicas.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

O artigo apresenta o Video2Layout, um framework que supera as limitações dos mapas cognitivos baseados em grades ao reconstruir layouts espaciais metricamente fundamentados a partir de coordenadas contínuas de limites de objetos, resultando em um modelo (V2LO-7B) que demonstra melhorias significativas no raciocínio espacial em comparação com métodos tradicionais.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs