Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

O artigo apresenta o Draw-In-Mind (DIM), um novo modelo e dataset que reequilibra as responsabilidades entre compreensão e geração em modelos multimodais unificados, atribuindo explicitamente o papel de "designer" ao módulo de compreensão para superar limitações na edição de imagens e alcançar desempenho superior a modelos muito maiores.

Ziyun Zeng, David Junhao Zhang, Wei Li + 1 more2026-03-02🤖 cs.AI

MEGS2^{2}: Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

O artigo apresenta o MEGS2^{2}, um novo framework de Splatting Gaussiano 3D que reduz drasticamente o consumo de memória em dispositivos de borda ao substituir harmônicos esféricos por lóbulos gaussianos esféricos e empregar uma poda unificada, alcançando uma diminuição de 50% na memória estática e 40% na memória de renderização sem comprometer a qualidade visual.

Jiarui Chen, Yikeng Chen, Yingshuang Zou + 5 more2026-03-02🤖 cs.AI

Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives

Este artigo apresenta um framework não supervisionado e diferenciável para parametrização de malhas 3D que automatiza o mapeamento UV ao incorporar objetivos de consciência semântica e visibilidade, resultando em atlas que melhor suportam a geração de texturas e reduzem artefatos perceptíveis em comparação com métodos existentes.

AmirHossein Zamani, Bruno Roy, Arianna Rampini2026-03-02💻 cs

Universal Beta Splatting

O artigo apresenta a Universal Beta Splatting (UBS), uma estrutura unificada que generaliza a Splatting Gaussiana 3D para kernels Beta anisotrópicos N-dimensionais, permitindo a modelagem controlada de dependências espaciais, angulares e temporais para renderização de campos de radiação em tempo real sem redes auxiliares, mantendo compatibilidade com métodos anteriores e superando-os em diversos benchmarks.

Rong Liu, Zhongpai Gao, Benjamin Planche + 8 more2026-03-02⚡ eess

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

Este artigo investiga como o DINOv2 representa conceitos visuais, demonstrando que, embora a Hipótese da Representação Linear com SAEs revele especialização funcional em tarefas como classificação e segmentação, a estrutura geométrica das representações é melhor descrita pela nova Hipótese da Representação de Minkowski, na qual os tokens são formados por misturas convexas de arquétipos dentro de espaços conceituais.

Thomas Fel, Binxu Wang, Michael A. Lepori + 8 more2026-03-02🤖 cs.AI

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Este artigo apresenta um novo framework de detecção de anomalias em vídeo semi-supervisionado que utiliza Modelos de Linguagem Multimodais (MLLMs) para gerar descrições textuais de interações entre objetos, superando as limitações de métodos existentes ao detectar anomalias complexas com alto nível de explicabilidade e desempenho de ponta.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Este artigo apresenta a Agregação Atenta de Recursos (AFA), um mecanismo de pooling leve que permite a políticas visuomotoras treinadas com representações visuais pré-treinadas ignorar distrações irrelevantes e focar em pistas visuais essenciais, resultando em maior robustez a perturbações visuais sem necessidade de aumento de dados ou ajuste fino.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Este estudo demonstra que, na classificação de tumores cerebrais em ressonância magnética com dados limitados, arquiteturas de CNN de propósito geral pré-treinadas (como ConvNeXt-Tiny) superam modelos pré-treinados especificamente em dados médicos (como RadImageNet DenseNet121), indicando que o pré-treinamento em domínios diversificados pode ser mais eficaz para tarefas diagnósticas especializadas.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI