Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

O artigo apresenta o Penguin-VL, um modelo de linguagem visual compacto que substitui os codificadores de visão pré-treinados por contraste tradicionais por um codificador inicializado a partir de um LLM puramente textual, alcançando desempenho superior em tarefas complexas como compreensão de documentos e raciocínio espacial sem a necessidade de aumentar o tamanho do modelo.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

O artigo apresenta o SUREON, um grande conjunto de dados de perguntas e respostas sobre vídeos cirúrgicos extraídos de aulas acadêmicas, e dois modelos de visão e linguagem (SureonVLM e SureonVLM-R1) que demonstram capacidades superiores de raciocínio cirúrgico, superando modelos gerais em tarefas de percepção e previsão de procedimentos.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

O artigo apresenta o BEVLM, um framework que integra representações de Visão de Pássaro (BEV) com Modelos de Linguagem de Grande Escala (LLMs) para superar limitações de consistência espacial e riqueza semântica, resultando em melhorias significativas de 46% na precisão de raciocínio em cenas de direção e de 29% no desempenho de condução autônoma em cenários críticos de segurança.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

O artigo apresenta o Omni-Diffusion, o primeiro modelo de linguagem multimodal "qualquer-para-qualquer" que unifica a compreensão e a geração de texto, fala e imagem utilizando exclusivamente um modelo de difusão discreta baseado em máscaras, superando ou equiparando-se aos sistemas existentes em diversos benchmarks.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Este artigo demonstra que o desempenho aparentemente inferior dos Modelos de Linguagem Multimodal (MLLMs) em tarefas de classificação é majoritariamente um artefato de protocolos de avaliação falhos e de ruídos nos dados de referência, os quais, quando corrigidos, revelam que esses modelos podem superar ou igualar modelos supervisionados e ainda auxiliar significativamente na curadoria de grandes conjuntos de dados.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

O artigo apresenta o FEP-Nav, um quadro inspirado biologicamente que utiliza o Princípio da Energia Livre para permitir a adaptação perceptiva em tempo real e melhorar a navegação robótica sob condições sensoriais ruidosas, minimizando a energia variacional sem necessidade de atualizações baseadas em gradiente.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

O artigo apresenta o InstructHumans, um novo quadro de trabalho para edição de texturas de humanos 3D animáveis baseada em instruções, que supera os métodos existentes ao introduzir uma versão modificada da Amostragem de Distilação de Pontuação (SDS-E) para garantir que as edições textuais sejam fiéis ao comando sem comprometer a consistência com o avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Este artigo apresenta um quadro de manipulação consciente de dinâmica 3D que integra modelagem de mundo 3D e aprendizado de políticas por meio de tarefas de aprendizado auto-supervisionado, dotando os modelos de "previsão 3D" para melhorar significativamente o desempenho em tarefas com movimento em profundidade sem comprometer a velocidade de inferência.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

O artigo apresenta o "Noise2Ghost", um novo método de reconstrução de imagem fantasma baseado em aprendizado profundo auto-supervisionado que elimina a necessidade de dados de referência limpos e oferece redução de ruído superior, permitindo aplicações de alta qualidade em cenários de baixa luminosidade, como imageamento de raios-X de amostras biológicas e baterias.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

O artigo apresenta o PhysLLM, um framework inovador que integra Modelos de Linguagem de Grande Escala (LLMs) com componentes específicos de fotopletismografia remota (rPPG) através de estratégias como a Orientação por Protótipos de Texto e o Algoritmo de Estacionariedade de Duplo Domínio, superando desafios de iluminação e movimento para alcançar medições fisiológicas não invasivas com precisão e robustez superiores.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs