Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

O artigo apresenta o FlashCache, um novo framework de compressão de cache KV para modelos de linguagem multimodal que utiliza uma abordagem guiada por domínio de frequência para identificar e preservar outliers críticos, resultando em uma aceleração de decodificação de até 1,69 vezes e uma redução de 80% no uso de memória sem comprometer o desempenho.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

O artigo propõe o ObAct, um novo framework de aprendizado por imitação com visão ativa que utiliza um braço robótico como observador para construir uma representação 3DGS e encontrar a melhor posição de câmera, permitindo que o braço executor atue com observações mais claras e resultando em políticas significativamente mais robustas do que em configurações com câmeras estáticas.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

O artigo apresenta o STAvatar, um método inovador para reconstrução de avatares 3D de cabeça a partir de vídeos monoculares que supera as limitações de rigidez e oclusão das abordagens existentes ao combinar um mecanismo de ligação suave adaptativa em UV com uma estratégia de controle de densidade temporal baseada em erros perceptivos fundidos, resultando em detalhes finos e alta fidelidade.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

O artigo apresenta o PowerCLIP, um novo framework de pré-treinamento contrastivo que supera as limitações de alinhamento composicional ao otimizar exaustivamente as correspondências entre regiões de imagem e frases por meio de alinhamento de conjunto de potências, utilizando agregadores não lineares eficientes para reduzir a complexidade computacional de exponencial para linear e alcançar desempenho superior em tarefas de classificação e recuperação zero-shot.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

O artigo apresenta o NeuralRemaster, um método de difusão que preserva as fases dos dados de entrada enquanto randomiza suas magnitudes, permitindo a geração de imagens e vídeos estruturalmente alinhados e geometricamente consistentes para tarefas como re-renderização e transferência sim-to-real, sem custos adicionais de inferência ou alterações na arquitetura do modelo.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

O artigo apresenta o ViRC, um framework que aprimora o raciocínio matemático multimodal em modelos de linguagem através de um mecanismo de "Reason Chunking" que divide o processo em Unidades de Raciocínio Crítico (CRUs), apoiado pelo novo conjunto de dados CRUX e uma estratégia de treinamento progressivo, resultando em um modelo ViRC-7B com desempenho superior em benchmarks matemáticos.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artigo apresenta o PhyGDPO, um framework de otimização direta de preferências em grupo consciente da física, que utiliza um pipeline de construção de dados aumentados por física e um esquema de recompensa guiado por VLM para gerar vídeos texto-para-vídeo que seguem consistentemente as leis físicas, superando os métodos atuais em benchmarks especializados.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

O artigo apresenta o EmboTeam, um framework inovador para planejamento de tarefas em equipes de robôs heterogêneos que integra raciocínio de modelos de linguagem (LLMs), planejamento clássico baseado em PDDL e árvores de comportamento reativas para melhorar significativamente a execução de tarefas de longo prazo em ambientes domésticos.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabalho avalia a capacidade de modelos fundacionais multimodais de identificar momentos importantes em vídeos de futebol, demonstrando que seu desempenho é próximo ao acaso devido à dependência de uma única modalidade e à falta de sinergia entre fontes, o que destaca a necessidade de arquiteturas modulares e procedimentos de treinamento complementares.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs