Weight Space Representation Learning on Diverse NeRF Architectures

Este artigo apresenta o primeiro framework capaz de aprender representações agnósticas à arquitetura para NeRFs diversos (incluindo MLPs, tri-planos e tabelas de hash) através de uma Meta-Rede Gráfica não supervisionada, permitindo inferência robusta em arquiteturas não vistas durante o treinamento e superando métodos existentes limitados a arquiteturas únicas.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Este trabalho apresenta uma abordagem totalmente não supervisionada baseada em correspondência de múltiplos grafos cíclicamente consistente e otimização bayesiana que alcança a precisão de métodos supervisionados para a anotação semântica de células em imagens de microscopia 3D de *C. elegans*, permitindo a construção do primeiro atlas não supervisionado da espécie sem necessidade de anotações de referência.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Este artigo apresenta o LaGoVAD, um novo paradigma e modelo de detecção de anomalias em vídeos que, sob supervisão fraca e guiado por linguagem natural, permite a adaptação dinâmica das definições de anomalias em cenários de mundo aberto, apoiado pelo lançamento do PreVAD, o maior e mais diversificado conjunto de dados de anomalias em vídeos até o momento.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este artigo apresenta o HSSBench, um novo benchmark multilíngue com mais de 13.000 amostras e um pipeline de geração de dados colaborativo, projetado especificamente para avaliar e superar as limitações dos Modelos de Linguagem Grandes Multimodais (MLLMs) em tarefas de Humanidades e Ciências Sociais que exigem raciocínio interdisciplinar horizontal.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

O artigo apresenta o Frame Guidance, um método sem treinamento que permite o controle de geração de vídeos em nível de quadro (como keyframes, estilos e esboços) em modelos de difusão existentes, utilizando técnicas de processamento de latente para reduzir o uso de memória e garantir coerência global sem a necessidade de ajuste fino do modelo.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

O artigo apresenta o Perception-R1, um método que aprimora o raciocínio multimodal de Grandes Modelos de Linguagem Multimodais (MLLMs) ao introduzir uma recompensa de percepção visual baseada em verificação de consistência, superando as limitações dos métodos atuais de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) e alcançando desempenho de ponta com poucos dados de treinamento.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

O artigo apresenta o SceneStreamer, um framework autoregressivo unificado que utiliza um modelo transformer para gerar cenários de tráfego contínuos e dinâmicos, permitindo a introdução e remoção de agentes ao longo de horizontes ilimitados e servindo como um ambiente de simulação de alta fidelidade para o treinamento e avaliação de sistemas de direção autônoma.

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs